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这 是 一 个 大 数据 爆发 的 时 代 。 面 对 信息 的 激流 、 多 元 化 数据 的 涌现 ,大 数据 已 经 为 个 人 生活 、 企 业 
经 营 , 甚 至 国家 与 社会 的 发 展 都 带 来 了 机 遇 和 挑战 ,大 数据 已 经 成 为 IT 信息 产业 中 最 具 潜 力 的 蓝海 。 

“大 数据 导论 ”是 一 门 理论 性 和 实践 性 都 很 强 的 课程 。 本 教材 针对 信息 管理 ,经 济 管理 和 其 他 相关 
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据 与 大 数据 时 代 、 大 数据 的 可 视 化 、 大 数据 的 商业 规则 、 大 数据 时 代 的 思维 变革 、 大 数据 促进 医疗 与 健 
康 、 大 数据 激发 创造 力 、 大 数据 预测 分 析 、 大 数据 促进 学 习 、 大 数据 在 云端 支撑 大 数据 的 技术 数据 科学 
与 数据 科学 家 和 大 数据 的 未 来 等 内 容 , 具 有 较 强 的 系统 性 ,可 读 性 和 实用 性 。 

本 书 是 为 高 等 院 校 相关 专业 “大 数据 基础 “大 数据 导论 ”等 课程 全 新 设计 编写 ,具有 丰富 实践 特色 
的 主教 材 , 也 可 供 有 一 定 实践 经 验 的 软件 开发 人 员 ,管理 人 员 参 考 和 作为 继续 教育 的 教材 。 
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大 数据 (Big Data) 的 力量 ,正在 积极 地 影响 着 社会 的 方方面面 , 它 冲 击 着 许多 主要 的 
行业 ,包括 零售 业 .电子 商务 和 金融 服务 业 等 ,同时 ,也 正在 彻底 地 改变 人 们 的 学 习 和 日 常 
生活 : 改变 教育 方式 .生活 方式 .工作 方式 ,甚至 是 人 们 寻找 爱情 的 方式 。 如 今 ,通过 简 
单 . 易 用 的 移动 应 用 和 基于 云端 的 数据 服务 ,能 够 追踪 自己 的 行为 以 及 饮食 习惯 ,还 能 提 
升 个 人 的 健康 状况 。 因 此 ,有 必要 真正 理解 大 数据 这 个 极其 重要 的 议题 。 

中 国 是 大 数据 最 大 的 潜在 市 场 之 一 。 据 估计 ,中 国有 近 六 亿 网 民 , 这 就 意味 着 中 国 的 
企业 拥有 绝 佳 的 机 会 来 更 好 地 了 解 其 客户 并 提供 更 个 性 化 的 体验 ,同时 为 企业 增加 收入 
并 提高 利润 。 阿 里 巴巴 就 是 一 个 很 好 的 例子 。 阿 里 巴巴 不 但 在 其 商业 模式 上 具有 颠覆 
性 ,而 且 还 掌握 了 与 购买 行为 产品 需求 和 库存 供应 相关 的 海量 数据 。 除 了 阿里 巴巴 高 层 
的 领导 能 力 之 外 ,大 数据 必然 是 其 成 功 的 一 个 关键 因素 。 

然而 , 仅 有 数据 是 不 够 的 。 对 于 身 处 大 数据 时 代 的 企业 而 言 , 成 功 的 关键 还 在 于 找 出 
大 数据 所 隐 含 的 真知 灼 见 。“ 以 前 ,人 们 总 说 信息 就 是 力量 ,但 如 今 ,对 数据 进行 分 析 、 利 
用 和 挖掘 才 是 力量 之 所 在 。” 

很 多 年 前 ,人 们 就 开始 对 数据 进行 利用 。 例 如 ,航空 公司 利用 数据 为 机 票 定价 ,银行 
利用 数据 搞 清楚 贷款 对 象 , 信 用 卡 公司 则 利用 数据 侦破 信用 卡 诈骗 等 。 但 是 直到 最 近 , 数 
据 , 或 者 用 现今 的 说 法 就 是 大 数据 , 才 真 正成 为 人 们 日 常生 活 的 一 部 分 。 随 着 Facebook 
( 脸 书 )、 谷 歌 (Google) . 推 特 CTwitter) 以 及 QQ, 微 信 、 淘 宝 等 的 出 现 ,大 数据 游戏 被 永远 
改变 了 。 你 和 我 ,或 者 任何 一 个 享受 这 些 服 务 的 用 户 都 生成 了 一 条 数据 足迹 , 它 能 够 反映 
出 我 们 的 行为 。 每 次 我 们 进行 搜索 .例如 查找 某 个 人 或 者 访问 某 个 网 站 ,都 加 深 了 这 条 足 
迹 。 互 联网 企业 开始 创建 新 技术 来 存储 ,分 析 激增 的 数据 一 一 结果 就 迎 来 了 被 称 为 * 大 数 
据 ? 的 创新 爆炸 。 

进入 2012 年 以 来 .由 于 互联 网 和 信息 行业 的 快速 发 展 , 大 数据 越 来 越 引 起 人 们 的 关 
注 , 已 经 引发 自 云 计 算 .互联 网 之 后 IT 行业 的 又 一 大 颠覆 性 的 技术 革命 。 人 们 用 大 数据 
来 描述 和 定义 信息 爆炸 时 代 产 生 的 海量 数据 ,并 命名 与 之 相关 的 技术 发 展 与 创新 。 云 计 
算 主要 为 数据 资产 提供 了 保管 访问 的 场所 和 渠道 ,而 数据 才 是 真正 有 价值 的 资产 。 企 业 
内 部 的 经 营 信息 、 互 联网 世界 中 的 商品 物流 信息 ,互联 网 世界 中 的 人 与 人 交互 信息 、 位 置 
信息 等 ,其 数量 将 远 远 超 越 现 有 企业 IT 架构 和 基础 设施 的 承载 能 力 ,实时 性 要 求 也 将 大 
大 超越 现 有 的 计算 能 力 。 如 何 盘 活 这 些 数据 资产 ,使 其 为 国家 治理 ,企业 决策 乃至 个 人 生 
活 服务 ,是 大 数据 的 核心 议题 ,也 是 云 计算 内 在 的 灵魂 和 必然 的 升级 方向 。 

对 于 在 校 大 学 生来 说 ,大 数据 的 理念 ,技术 与 应 用 是 一 门 理论 性 和 实践 性 都 很 强 的 


和 


“必修 ?课程 。 在 长 期 的 教学 实践 中 ,我 们 体会 到 ,坚持 “因材施教 ”的 重要 原则 ,把 实践 环 
节 与 理论 教学 相 融 合 , 抓 实践 教学 促进 理论 知识 的 学 习 , 是 有 效 地 改善 教学 效果 和 提高 教 
学 水 平 的 重要 方法 之 一 。 本 书 的 主要 特色 是 : 理论 联系 实际 ,结合 一 系列 了 解 和 熟悉 大 
数据 理念 .技术 与 应 用 的 学 习 和 实践 活动 ,把 大 数据 的 相关 概念 .基础 知识 和 技术 技巧 融 
和 人 在 实践 当中 ,使 学 生 保 持 浓厚 的 学 习 热 情 , 加 深 对 大 数据 技术 的 兴趣 .认识 、 理 解 和 
掌握 。 

本 书 是 为 高 等 院 校 相关 专业 ,尤其 是 信息 管理 ,经 济 管理 类 专业 开设 “大 数据 "相关 课 
程 而 全 新 设计 编写 ,具有 丰富 实践 特色 的 主教 材 , 也 可 供 有 一 定 实践 经 验 的 IT 应 用 人 
员 、 管 理 人 员 参 考 和 作为 继续 教育 的 教材 。 

本 书 系统 .全面 地 介绍 了 大 数据 的 基本 知识 和 应 用 技能 ,详细 介绍 了 大 数据 与 大 数据 
时 代 、 大 数据 的 可 视 化 、 大 数据 的 商业 规则 、 大 数据 时 代 的 思维 变革 、 大 数据 促进 医疗 与 健 
康 、 大 数据 激发 创造 力 、 大 数据 预测 分 析 、 大 数据 促进 学 习 、 大 数据 在 云端 ,支撑 大 数据 的 
技术 数据 科学 与 数据 科学 家 以 及 大 数据 的 未 来 等 内 容 , 具 有 和 较 强 的 系统 性 \、 可 读 性 和 实 
用 性 。 

结合 课堂 教学 方法 改革 的 要 求 , 全 书 设计 了 课程 教学 过 程 ,为 每 章 教 学 内 容 都 有 针对 
性 地 安排 了 课 前 阅读 ,课程 教学 内 容 和 课 后 实验 练习 等 环节 ,要 求 和 指导 学 生 在 课 前 、 课 
后 阅读 课文 .网络 搜索 浏览 的 基础 上 ,延伸 阅读 ,深入 理解 课程 知识 内 涵 。 

本 课程 的 教学 进度 设计 见 《 课 程 教学 进度 表 》, 该 表 可 作为 教师 授课 参考 和 学 生 课程 
学 习 的 概要 。 实 际 执行 时 ,应 按照 教学 大 纲 编排 教学 进度 ,按照 校 历 考虑 本 学 期 节假日 安 
排 ,实际 确定 本 课程 的 教学 进度 。 

本 课程 的 教学 评测 可 以 从 以 下 几 个 方面 人 手 。 

(1) 每 周 的 课 前 阅读 (12 次 ); 

(2) 每 周 的 课 后 实验 与 思考 (11 次 ); 

(3) 课程 实验 总 结 (第 12 章 ); 

(4) 结合 平时 考勤 ; 

(5) 任课 老师 认为 必要 的 其 他 考核 方法 。 

与 本 书 配套 的 教学 PPT 课件 等 文档 可 从 清华 大 学 出 版 社 网 站 下 载 , 欢 迎 教师 与 作者 
交流 并 索取 为 本 书 教学 配套 的 相关 资料 并 交流 : zhousu@qq. com, QQ 81505050, 个 人 博 
客 http://blog. sina. com. cn/zhousu58 。 

本 书 的 编写 得 到 了 浙江 大 学 城市 学 院 .温州 安防 职业 技术 学 院 、. 浙 江 商 业 职 业 技 术 学 
院 等 多 所 院 校 师 生 的 支持 ,张丽娜 、 蔡 锦 锦 、 孙 曙 迎 、 王 硕 苹 等 参与 了 本 书 的 部 分 编写 工 
作 ,在 此 一 并 表示 感谢 ! 


周 苏 
2016 年 春节 于 西子 湖畔 
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大 数据 与 大 数据 时 代 


【导读 案例 】 
准确 预测 地 震 


我 们 已 经 知道 ,地 震 是 由 构造 板块 ( 即 偶尔 会 漂移 的 陆地 板块 ) 相 互 挤 压 造成 的 ,这 种 
板块 挤 压 发 生 在 地 球 深 处 ,并 且 各 个 板块 的 相互 运动 极其 复杂 。 因 此 ,有 用 的 地 震 数据 
来 之 不 易 , 而 要 弄 明 和 白 是 什么 地 质 运动 导致 了 地 震 , 上 基本 上 是 不 现实 的 。 每 年 ,世界 各 地 
约 有 7000 次 里 氏 4.0 或 更 高 级 别 的 地 震 发 生 , 每 年 有 成 千 上 万 的 人 因此 责 命 ,而 一 次 地 
震 带 来 的 物质 损失 就 有 千 亿 美元 之 多 。 

虽然 地 震 有 预兆 ,“ 但 是 我 们 仍然 无 法 通过 它们 可 靠 、 有 效 地 预测 地 震 。” 相 反 ,我们 能 
做 的 就 是 尽 可 能 地 为 地 震 做 好 准备 ,包括 在 设计 、 修 建 桥梁 和 其 他 建筑 的 时 候 就 把 地 震 考 
虑 在 内 ,并 且 准 备 好 地 震 应 急 包 等 ,一 旦 发 生地 震 , 这 些 基 础 设施 和 群众 都 能 有 更 充足 的 
准备 (图 1-1) 。 


图 1-1 全 球 实时 地 震 监 测 


如 今 , 科 学 家 们 只 能 预报 某 个 地 方 、 某 个 具体 的 时 间 段 内 发 生 某 级 地 震 的 可 能 性 。 例 
如 ,他 们 只 能 说 未 来 30 年 , 某 个 地 区 有 80% 的 可 能 性 会 发 生 里 氏 8.4 级 地 震 , 但 他 们 无 
法 完全 确定 地 说 出 何 时 何 地 会 发 生地 震 . 或 者 发 生 几 级 地 震 。 

科学 家 能 预报 地 震 , 但 是 他 们 无 法 预测 地 震 。 归 根 结 底 , 准 确 地 预测 地 震 , 就 要 回答 
何 时 、 何 地 、 何 种 震级 这 三 个 关键 问题 ,需要 掌握 促使 地 震 发 生 的 不 同 自然 因素 ,以 及 揭示 
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它们 之 间 复 杂 的 相互 运动 的 更 多 、 更 好 的 数据 。 

预测 不 同 于 预报 。 不 过 ,虽然 准确 预测 地 震 还 有 很 长 的 路 要 走 , 但 科学 家 已 经 越 来 越 
多 地 为 地 震 受 害 者 争取 到 那么 几 秒 钟 的 时 间 了 。 

例如 ,斯 坦 福 大 学 的 “地 震 捕捉 者 网 络 ” 就 是 一 个 会 生成 大 量 数据 的 廉价 监测 网 络 的 
典型 例子 , 它 由 参与 分 布 式 地 震 检 测 网 络 的 大 约 二 百 个 志愿 者 的 计算 机 组 成 。 有 时 候 , 这 
个 监测 网 络 能 提前 10 秒 钟 提醒 可 能 会 受灾 的 人 群 。 这 10 秒 钟 ,就 意味 着 可 以 选择 是 搭 
乘 运行 的 电梯 还 是 走 楼 梯 , 是 走 到 开阔 处 去 还 是 躲 到 桌子 下 面 。 

技术 的 进步 使 得 捕捉 和 存储 如 此 多 数据 的 成 本 大 大 降低 。 能 得 到 更 多 、 更 好 的 数据 
不 只 为 计算 机 实现 更 精明 的 决策 提供 了 更 多 的 可 能 性 ,也 使 人 类 变 得 更 聪明 了 。 

从 本 质 上 来 说 ,准确 预测 地 震 既 是 大 数据 的 机 遇 又 是 挑战 。 单纯 拥有 数据 还 远 远 不 
够 。 我 们 既 要 掌握 足够 多 的 相关 数据 ,又 要 具备 快速 分 析 并 处 理 这 些 数据 的 能 力 , 只 有 这 
样 ,才能 争取 到 足够 多 的 行动 时 间 。 越 是 即将 逼近 的 事情 , 越 需要 快速 地 实现 准确 预测 。 

阅读 上 文 ,请 思考 、 分 析 并 简单 记录 : 

(1) 你 亲历 或 者 听 说 过 的 地 震 事件 。 

答 : 


(2) 针对 地 球 上 频 发 的 地 震 灾害 ,请 尽 可 能 多 地 列举 你 所 认为 的 地 震 大 数据 内 容 。 
答 : 


(3) 认识 大 数据 ,对 地 震 活动 的 方方面面 (预报 、 预 测 与 灾害 减轻 等 ) 有 什么 意义 ? 
答 : 


(4) 请 简单 记述 你 所 知道 的 上 一 周 内 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 


11 什么 是 大 数据 


信息 社会 所 带 来 的 好 处 是 显而易见 的 : 每 个 人 口袋 里 都 揣 有 一 部 手机 ,每 个 办 公 桌 
上 都 放 着 一 台 计 算 机 ,每 间 办 公 室内 都 连接 到 局 域 网 其 至 互联 网 。 半 个 世纪 以 来 , 随 着 计 
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算 机 技术 全 面 和 深度 地 融入 社会 生活 ,信息 爆炸 已 经 积累 到 了 一 个 开始 引发 变革 的 程度 。 
它 不 仅 使 世界 充斥 着 比 以 往 更 多 的 信息 ,而且 其 增长 速度 也 在 加 快 。 信 息 总 量 的 变化 还 
导致 了 信息 形态 的 变化 一 一 量变 引起 了 质变 。 

最 先 经 历 信息 爆炸 的 学 科 , 如 天 文学 和 基因 学 ,创造 出 了 “大 数据 "(Big Data) 这 个 概 
念 。 如 今 , 这 个 概念 几乎 应 用 到 了 所 有 人 类 致力 于 发 展 的 领域 中 。 


1.1.1 天 文学 一 一 信息 爆炸 的 起 源 


综合 观察 社会 各 个 方面 的 变化 趋势 ,我 们 能 真正 意识 到 信息 爆炸 或 者 说 大 数据 的 时 
代 已 经 到 来 。 以 天 文学 为 例 ,2000 年 斯 隆 数 字 巡 天 9 项 目 ( 图 1-2) 启 动 的 时 候 , 位 于 新 墨 
西 哥 州 的 望远镜 在 短 短 几 周 内 收集 到 的 数 
据 , 就 比 世 界 天 文学 历史 上 总 共 收 集 的 数据 
还 要 多 。 到 了 2010 年 ,信息 档案 已 经 高 达 
1.4X22B。 不 过 ,预计 2016 年 在 智利 投入 
使 用 的 大 型 视 场 全 景 巡 天 望远镜 能 在 5 天 之 
内 就 获得 同样 多 的 信息 。 

天 文学 领域 发 生 的 变化 在 社会 各 个 领域 
都 在 发 生 。2003 年 ,人 类 第 一 次 破译 人 体 基 
因 密 码 的 时 候 , 辛 苦 工 作 了 十 年 才 完 成 了 三 
十 亿 对 碱 基 对 的 排序 。 大 约 十 年 之 后 ,世界 
范围 内 的 基因 仪 每 15 分 钟 就 可 以 完成 同样 图 1-2 美国 斯 隆 数字 巡天 望远镜 
的 工作 。 在 金融 领域 ,美国 股市 每 天 的 成 交 
量 高 达 70 亿 股 ,而 其 中 三 分 之 二 的 交易 都 是 由 建立 在 数学 模型 和 算法 之 上 的 计算 机 程序 
自动 完成 的 ,这 些 程序 运用 海量 数据 来 预测 利益 和 降低 风险 。 

互联 网 公司 更 是 要 被 数据 淹没 了 。 和 谷歌 公司 每 天 要 处 理 超 过 24PB(2”B, 拍 字 节 ) 的 
数据 ,这 意味 着 其 每 天 的 数据 处 理 量 是 美国 国家 图 书馆 所 有 纸 质 出 版 物 所 含 数据 量 的 上 
千 倍 。Facebook( 脸 书 ) 这 个 创立 不 过 十 来 年 的 公司 ,每 天 更 新 的 照片 量 超过 1000 万 张 ， 
每 天 人 们 在 网 站 上 单 击 * 喜 欢 ”(Like) 按 钮 或 者 写 评论 大 约 有 三 十 亿 次 ,这 就 为 Facebook 
公司 挖掘 用 户 喜好 提供 了 大 量 的 数据 线索 。 与 此 同时 ,谷歌 子 公 司 YouTube@ 每 月 接待 
多 达 8 亿 的 访客 ,平均 每 一 秒 钟 就 会 有 一 段 长 度 在 一 小 时 以 上 的 视频 上 传 。 推 特 
(Twitter)@8 上 的 信息 量 几 乎 每 年 翻 一 番 ,每 天 都 会 发 布 超过 4 亿 条 微 博 。 


四 斯 隆 数字 巡天 (Sloan Digital Sky Survey,SDSS) : 使 用 位 于 新 墨西哥 州 阿 帕 奇 山顶 天 文 台 的 2. 5m 口径 望 远 
镜 进 行 的 红 移 巡 天 项 目 。 以 阿尔 弗 雷 德 。 斯 隆 的 名 字 命 名 ,计划 观测 25% 的 天 空 ,获取 超过 一 百 万 个 天 体 的 多 色 测 
光 资 料 和 光谱 数据 。2006 年 ,斯 隆 数字 巡天 进入 了 名 为 SDSS- 卫 的 新 阶段 ,进一步 探索 银河 系 的 结构 和 组 成 ,而 斯 隆 
超新星 巡天 计划 搜寻 Ia 型 超新星 爆发 ,以 测量 宇宙 学 尺度 上 的 距离 。 

加 YouTube 是 世界 上 最 大 的 视频 网 站 ,于 2005 年 2 月 15 日 注册 ,早期 总 部 位 于 加 利 福 尼 亚 州 的 圣 布鲁诺 。 
2006 年 11 月 ,Google 公司 以 16. 5 亿美 元 收购 了 YouTube, 并 把 其 当 作 一 间 子 公司 来 经 营 。 

回 Twitter( 推 特 ) 是 一 家 美国 社交 网 络 及 微 博客 服务 的 网 站 ,是 全 球 互联 网 上 访问 量 最 大 的 10 个 网 站 之 一 ,是 
微 博 客 的 典型 应 用 ,其 消息 也 被 称 作 “ 推 文 (Tweet)”。Twitter 被 形容 为 “互联 网 的 短信 服务 ”。 
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从 科学 研究 到 医疗 保险 ,从 银行 业 到 互联 网 ,各 个 不 同 的 领域 都 在 讲述 着 一 个 类 似 的 
故事 , 那 就 是 爆发 式 增 长 的 数据 量 。 这 种 增长 超过 了 人 们 创造 机 器 的 速度 ,甚至 超过 了 人 
们 的 想象 。 

我 们 周围 到 底 有 多 少数 据 ? 增长 的 速度 有 多 快 ?” 许多 人 试图 测量 出 一 个 确切 的 数 
字 。 尽 管 测量 的 对 象 和 方法 有 所 不 同 ,但 他 们 都 获得 了 不 同 程度 的 成 功 。 南 加 利 福 尼 亚 
大 学 安 嫩 伯 格 通信 学 院 的 马丁 .看 尔 伯 特 进行 了 一 个 比较 全 面 的 研究 ,他 试图 得 出 人 类 
所 创造 .存储 和 传播 的 一 切 信息 的 确切 数目 。 他 的 研究 范围 不 仅 包括 书籍 .图画 .电子 邮 
件 、 照 片 、 音 乐 .视频 (模拟 和 数字 ), 还 包括 电子 游戏 .电话 、 汽 车 导航 和 信件 。 马 丁 ， 和希 尔 
伯 特 还 以 收视 率 和 收听 率 为 基础 ,对 电视 、 电 台 这 些 广 播 媒 体 进行 了 研究 。 

据 他 估算 , 仅 在 2007 年 ,人 类 存储 的 数据 就 超过 了 300EB(2”B, 艾 字 节 )。 下 面 这 个 
比喻 应 该 可 以 帮助 人 们 更 容易 地 理解 这 意味 着 什么 : 一 部 完整 的 数字 电影 可 以 压缩 成 一 
个 GB 的 文件 ,而 一 个 艾 字 节 相当 于 10 亿 GB, 一 个 泽 字 节 (ZB,2"B) 则 相当 于 1024EB。 
总 之 ,这 是 一 个 非常 庞大 的 数量 。 

有 趣 的 是 ,在 2007 年 的 数据 中 ,只 有 7% 是 存储 在 报纸 、 书 籍 、 图 片 等 媒介 上 的 模拟 
数据 ,其 余 全 部 是 数字 数据 。 

模拟 数据 也 称 为 模拟 量 , 相 对 于 数字 量 而 言 , 指 的 是 取 值 范围 是 连续 的 变量 或 者 数 
值 ,例如 声音 .图 像 .温度 .压力 等 。 模 拟 数据 一 般 采 用 模拟 信号 ,例如 用 一 系列 连续 变化 的 
电磁 波 或 电压 信号 来 表示 。 数 字数 据 也 称 为 数字 量 , 相 对 于 模拟 量 而 言 , 指 的 是 取 值 范围 是 
离散 的 变量 或 者 数值 。 数 字数 据 则 采用 数字 信号 ,例如 用 一 系列 断 续 变 化 的 电压 脉冲 (如 用 
恒定 的 正 电 压 表示 二 进 制 数 1, 用 恒定 的 负电 压 表示 二 进 制 数 0) 或 光 脉 冲 来 表示 。 

但 在 不 久之 前 ,情况 却 完全 不 是 这 样 的 。 虽 然 1960 年 就 有 了 “信息 时 代 ” 和 “数字 村 
镇 ”的 概念 ,在 2000 年 的 时 候 ,数字 存储 信息 仍 只 占 全 球 数据 量 的 四 分 之 一 ,当时 ,另外 四 
分 之 三 的 信息 都 存储 在 报纸 .胶片 . 黑 胶 唱 片 和 盒 式 磁带 这 类 媒介 上 。 

早期 数字 信息 的 数量 并 不 多 。 对 于 长 期 在 网 上 冲浪 和 购书 的 人 来 说 , 那 只 是 一 个 微 
小 的 部 分 。 事实 上 ,在 1986 年 的 时 候 . 世 界 上 约 40% 的 计算 能 力 都 在 袖珍 计算 器 上 运 
行 , 那 时 候 , 所 有 个 人 计算 机 的 处 理 能 力 之 和 还 没有 所 有 袖珍 计算 器 处 理 能 力 之 和 高 。 但 
是 因为 数字 数据 的 快速 增长 ,整个 局 势 很 快 就 颠倒 过 来 了 。 按 照 希 尔 伯 特 的 说 法 ,数字 数 
据 的 数量 每 三 年 多 就 会 翻 一 倍 。 相 反 ,模拟 数据 的 数量 则 基本 上 没有 增加 。 

到 2013 年 ,世界 上 存储 的 数据 达到 约 1. 2ZB, 其 中 非 数 字数 据 只 占 不 到 2%。 这 样 
大 的 数据 量 意 味 着 什么 ”如 果 把 这 些 数据 全 部 记 在 书 中 ,这 些 书 可 以 覆盖 整个 美国 52 
次 。 如 果 将 其 存储 在 只 读 光 盘 上 ,这 些 光盘 可 以 堆 成 5 堆 ,每 一 堆 都 可 以 伸 到 月 球 。 

公元 前 3 世纪 ,埃及 的 托 勒 密 二 世 竭 力 收集 了 当时 所 有 的 书写 作品 ,所 以 伟大 的 亚 历 
山大 图 书馆 ?了 (图 1-3) 可 以 代表 世界 上 所 有 的 知识 量 。 亚 历 山大 图 书馆 藏书 丰富 ,有 据 可 
考 的 超过 50 000 卷 ( 纸 草 卷 ) ,包括 ( 荷 马 史诗 》《 几何 原本 ) 等 。 但 是 , 当 数 字数 据 洪 流 席 


@ 亚历山大 图 书馆 建成 之 时 正 是 中 国 战国 时 代 的 末期 ,此 时 百家争鸣 , 较 有 影响 的 十 大 家 ( 儒 . 道 . 墨 . 法 名、 阴 
阳 、 纵 横 、 杂 、 农 .小 说 ) 多 有 著述 , 且 已 出 现 如 (诗经 )《 楚 辞 )《 离 骚 } 等 文学 作品 , 虽 没有 像 亚历山大 图 书馆 一 样 的 集 
中 式 藏书 中 心 ,但 也 占据 了 世界 知识 量 的 相当 份额 。 


多 


第 由 齐 大 数 电 与 大 数据 时 代 


卷 世界 之 后 ,每 个 地 球 人 都 可 以 获得 大 量 的 数据 信息 ,相当 于 当时 亚历山大 图 书馆 存储 的 
数据 总 量 的 320 倍 之 多 。 
i 真 的 在 快速 发 展 。 人 类 存储 信息 量 的 增长 速度 比 世 界 经 济 的 增长 速度 快 4 售 ， 
而 计算 机 数据 处 理 能 力 的 增长 速度 则 比 世 界 经 济 的 增长 速度 快 9 倍 。 难 怪人 们 会 抱怨 信 
息 过 量 ,因为 每 个 人 都 受到 了 这 种 极速 发 展 的 冲击 。 

历史 学 家 伊丽莎白 ， 爱 森 斯 坦 发 现 .1453 一 1503 年 ,这 50 年 之 间 大 约 印刷 了 800 万 
本 书籍 , 比 1200 年 之 前 君 士 坦 丁 堡 建立 以 来 整个 欧洲 所 有 的 手 抄 书 还 要 多 。 换 言 之 , 欧 
洲 的 信息 存储 量 花 了 50 年 才 增 长 了 一 倍 (当时 的 欧洲 还 占据 了 世界 上 相当 部 分 的 信息 存 
储 份额 ) ,而 如 今 大 约 每 三 年 就 能 增长 一 倍 。 

这 种 增长 意味 着 什么 呢 ? 和 披 特 。 诺 维 格 是 谷歌 的 人 工 智能 专家 ,也 曾 任职 于 美国 宇 
航 局 喷气 推进 实验 室 , 他 喜欢 把 这 种 增长 与 图 画 进行 类 比 。 首 先 , 他 要 我 们 想 想来 自 法 国 
拉 斯 科 洞 穴 壁 画 2 上 的 标志 性 的 马 (图 1-4)。 这 些 画 可 以 追溯 到 一 万 七 千年 之 前 的 旧 石 
器 时 代 。 然 后 ,再 想 想 毕 加 索 画 的 马 ,看 起 来 和 那些 洞穴 壁画 没有 多 大 的 差别 。 事 实 上 ， 
毕加索 看 到 那些 洞穴 壁画 的 时 候 就 曾 开玩笑 说 :“ 自 那 以 后 ,我 们 就 再 也 没有 创造 出 什么 
东西 了 。” 


图 1-3 举世 闻名 的 古代 文化 中 心 一 一 亚历山大 图 1-4 拉 斯 科 洞穴 壁画 
图 书馆 , 毁 于 3 世纪 末 的 战火 

回想 一 下 壁画 上 的 那 匹 马 。 当 时 要 画 一 幅 马 需要 花费 很 久 的 时 间 ,而 现在 不 需要 那 
么 久 了 。 这 就 是 一 种 改变 ,虽然 改变 的 可 能 不 是 最 核心 的 部 分 一 一 毕竟 这 仍然 是 一 幅 马 
的 图 像 。 但 是 诺 维 格 说 ,想象 一 下 ,现在 我 们 能 每 秒 播放 24 幅 不 同形 态 的 马 的 图 片 ,这 就 
是 一 种 由 量变 导致 的 质变 : 一 部 电影 与 一 幅 静 态 的 画 有 本 质 上 的 区 别 ! 大 数据 也 一 样 ， 
量变 导致 质变 。 物 理学 和 生物 学 都 告诉 我 们 , 当 我 们 改变 规模 时 ,事物 的 状态 有 时 也 会 发 
生 改 变 。 


@ 法 国 拉 斯 科 洞穴 壁画 : 1940 年 ,法 国 西南 部 道 尔 多 尼 州 乡村 的 4 个 儿童 带 着 狗 在 追 捉 野 免 。 突 然 野 免 不 见 
了 , 紧 追 的 狗 也 不 见 了 。 和 孩子 们 这 才 发 现 免 和 狗 跑 进 一 个 山洞 ,他 们 带 着 电 简 和 绳索 也 进入 洞 里 ,结果 发 现 一 个 原始 
人 庞大 的 画廊 。 它 由 一 条 长 长 的 、 宽 狭 不 等 的 通道 组 成 ,其 中 有 一 个 外 形 不 规则 的 圆 厅 最 为 壮观 , 洞 顶 画 有 65 头 大 型 
动物 形象 ,有 从 2m 到 3m 长 的 野马 .野牛 、 谭 ,有 4 头 巨 大 公牛 ,最 长 的 约 5m 以 上 ,真是 惊 世 的 杰作 。 这 就 是 同 阿尔 塔 
米 拉 洞 齐名 的 拉 斯 科 洞 窟 壁画 。 它 被 誉 为 “史前 的 卢 浮 宫 ”。 


大 茹 电导 纶 


以 纳米 技术 为 例 。 纳 米 技术 专注 于 把 东西 变 小 而 不 是 变 大 。 其 原理 就 是 当 事 物 到 达 
分 子 级 别 时 , 它 的 物理 性 质 就 会 发 生 改 变 。 一 旦 你 知道 这 些 新 的 性 质 ,就 可 以 用 同样 的 原 
料 来 做 以 前 无 法 做 的 事情 。 铜 本 来 是 用 来 导电 的 物质 ,但 它 一 旦 到 达 纳 米 级 别 就 不 能 在 
磁场 中 导电 了 。 银 离子 具有 抗菌 性 ,但 当 它 以 分 子 形式 存在 的 时 候 , 这 种 性 质 会 消失 。 一 
县 到达 纳米 级 别 ,金属 可 以 变 得 柔软 ,陶土 可 以 具有 弹性 。 同 样 , 当 我 们 增加 所 利用 的 数 
据 量 时 ,也 就 可 以 做 很 多 在 小 数据 量 的 基础 上 无 法 完成 的 事情 。 

有 了 时候, 我 们 认为 约束 自己 生活 的 那些 限制 ,对 于 世间 万 物 都 有 着 同样 的 约束 力 。 事 
实 上 ,尽管 规律 相同 ,但 是 我 们 能 够 感受 到 的 约束 ,很 可 能 只 对 我 们 这 样 尺度 的 事物 起 作 
用 。 对 于 人 类 来 说 ,唯一 一 个 最 重要 的 物理 定律 便 是 万 有 引力 定律 。 这 个 定律 无 时 无 刻 
不 在 控制 着 我 们 。 但 对 于 细小 的 昆虫 来 说 ,重力 是 无 关 紧要 的 。 对 它们 而 言 , 物 理 宇 宙 中 
有 效 的 约束 是 表面 张力 ,这 个 张力 可 以 让 它们 在 水 上 自由 行走 而 不 会 掉 下 去 。 但 人 类 对 
于 表面 张力 毫 不 在 意 。 

大 数据 的 科学 价值 和 社会 价值 正 是 体现 在 这 里 。 一 方面 ,对 大 数据 的 掌握 程度 可 以 
转化 为 经 济 价值 的 来 源 。 另 一 方面 ,大 数据 已 经 撼动 了 世界 的 方方面面 ,从 商业 科技 到 医 
疗 政府 .教育 经济 ,人文 以 及 社会 的 其 他 各 个 领域 。 尽 管 我 们 还 处 在 大 数据 时 代 的 初 
期 ,但 我 们 的 日 常生 活 已 经 离 不 开 它 了 。 


1.1.2 大 数据 的 定义 


所 谓 大 数据 ,狭义 上 可 以 定义 为 : 用 现 有 的 一 般 技 术 难 以 管理 的 大 量 数 据 的 集合 。 
对 大 量 数 据 进行 分 析 , 并 从 中 获得 有 用 观点 ,这 种 做 法 在 一 部 分 研究 机 构 和 大 企业 中 ,过 
去 就 已 经 存在 了 。 现 在 的 大 数据 和 过 去 相 比 ,主要 有 三 点 区 别 : 第 一 , 随 着 社交 媒体 和 传 
感 器 网 络 等 的 发 展 ,在 我 们 身边 正 产生 出 大 量 且 多 样 的 数据 ;第 二 , 随 着 硬件 和 软件 技术 
的 发 展 ,数据 的 存储 、 处 理 成 本 大 幅 下 降 ; 第 三 , 随 着 云 计 算 的 兴起 ,大 数据 的 存储 、 处 理 环 
境 已 经 没有 必要 自行 搭建 。 

所 谓 “ 用 现 有 的 一 般 技术 难以 管理 ”. 例 如 是 指 用 目前 在 企业 数据 库 占据 主流 地 位 的 
关系 型 数据 库 无 法 进行 管理 的 .具有 复杂 结构 的 数据 。 或 者 也 可 以 说 ,是 指 由 于 数据 量 的 
增 大 ,导致 对 数据 的 查询 (Query) 响 应 时 间 超 出 允许 范围 的 庞大 数据 。 

研究 机 构 Gartner 给 出 了 这 样 的 定义 :“ 大 数据 ?是 需要 新 处 理 模式 才能 具有 更 强 的 
决策 力 .洞察 发 现 力 和 流程 优化 能 力 的 海量 ,高 增长 率 和 多 样 化 的 信息 资产 。 

麦肯锡 ?说 :“ 大 数据 指 的 是 所 涉及 的 数据 集 规模 已 经 超过 了 传统 数据 库 软 件 获取 、 
存储 、 管 理 和 分 析 的 能 力 。 这 是 一 个 被 故意 设计 成 主观 性 的 定义 ,并 且 是 一 个 关于 多 大 的 
数据 集 才能 被 认为 是 大 数据 的 可 变 定义 , 即 并 不 定义 大 于 一 个 特定 数字 的 TB 才 叫 大 数 


中 麦肯锡 公司 : 世界 级 领先 的 全 球 管理 咨询 公司 。 自 1926 年 成 立 以 来 ,公司 的 使 命 就 是 帮助 领先 的 企业 机 构 
实现 显著 ,持久 的 经 营业 绩 改 善 ,打造 能 够 吸引 、 培 育 和 激励 杰出 人 才 的 优秀 组 织 机 构 。 

麦肯锡 在 全 球 52 个 国家 有 94 个 分 公司 。 在 过 去 十 年 中 ,麦肯锡 在 大 中 华 区 完成 了 八 百 多 个 项 目 , 涉 及 公司 整体 
与 业务 单元 战略 ,企业 金融 ,营销 /销售 与 渠道 .组织 架 构 、 制 造 /采购 /供应 链 、 技 术 、 产 品 研发 等 领域 

麦肯锡 的 经 验 是 :关键 是 找 那些 企业 的 领导 们 ,他们 能 够 认识 到 公司 必须 不 断 变革 以 适应 环境 变化 ,并 且 愿 意 接 
受 外 部 的 建议 ,这 些 建议 在 帮助 他 们 决定 做 何 种 变革 和 怎样 变革 方面 大 有 神 益 - 


移 册 年 内 负电 器 内 久 有 所 轩 六 


据 。 因 为 随 着 技术 的 不 断 发 展 ,符合 大 数据 标准 的 数据 集 容量 也 会 增长 ;并 且 定 义 随 不 同 
的 行业 也 有 变化 ,这 依赖 于 在 一 个 特定 行业 通常 使 用 何 种 软件 和 数据 集 有 和 多大。 因此 ,大 
数据 在 今天 不 同行 业 中 的 范围 可 以 从 几 十 TB 到 几 PB。” 

随 着 “大 数据 ”的 出 现 , 数 据 仓库 数据 安 全 数据 分 析 、 数 据 挖掘 等 围绕 大 数据 商业 价 
值 的 利用 正 逐 渐 成 为 行业 人 士 争 相 追捧 的 利润 焦点 ,在 全 球 引 领 了 又 一 轮 数 据 技术 革新 
的 浪潮 。 


1.1.3 用 3V 描述 大 数据 特征 


从 字面 来 看 “大 数据 ”这 个 词 可 能 会 让 人 觉得 只 是 容量 非常 大 的 数据 集合 而 已 。 但 
容量 只 不 过 是 大 数据 特征 的 一 个 方面 ,如 果 只 拘泥 于 数据 量 ,就 无 法 深入 理解 当前 围绕 大 
数据 所 进行 的 讨论 。 因 为 “用 现 有 的 一 般 技术 难以 管理 ?这 样 的 状况 ,并 不 仅仅 是 由 于 数 
据 量 增 大 这 一 个 因素 所 造成 的 。 

IBM 说 :“ 可 以 用 三 个 特征 相 结合 来 定义 大 数据 : 数量 (Volume, 或 称 容量 )、 种 类 
CVariety ,或 称 多 样 性 ) 和 速度 (Velocity) ,或 者 是 简单 的 3V., 即 庞大 数量 、 极 快速 度 和 种 
类 丰富 的 数据 ”, 如 图 1-5 所 示 。 


Variety 


结构 化 和 批量 数据 


7/ 非 结构 化 


大 数据 流 数据 


吉 构 化 、 . 


图 1-5 按 数量 .种 类 和 速度 来 定义 大 数据 


Variety 种 类 
Velocity 速度 
Volume 数 量 


1. volume( 数 量 ) 


用 现 有 技术 无 法 管理 的 数据 量 , 从 现状 来 看 ,基本 上 是 指 从 几 十 TB 到 几 PB 这 样 的 
数量 级 。 当 然 , 随 着 技术 的 进步 ,这 个 数值 也 会 不 断 变化 。 

如 今 ,存储 的 数据 数量 正在 急剧 增长 中 ,我 们 存储 所 有 事物 ,包括 : 环境 数据 、 财 务 数 
据 、 医 疗 数据 ,监控 数据 等 。 有 关 数 据 量 的 对 话 已 从 TB 级 别 转向 PB 级别, 并且 不 可 避免 
地 会 转向 ZB 级 别 。 可 是 , 随 着 可 供 企 业 使 用 的 数据 量 不 断 增 长 ,可 处 理 、 理 解 和 分 析 的 
数据 的 比例 却 不 断 下 降 。 


2 Veridy( 种 类 、 多 样 性 ) 


随 着 传感器 .智能 设备 以 及 社交 协作 技术 的 激增 ,企业 中 的 数据 也 变 得 更 加 复杂 , 因 
为 它 不 仅 包 含 传 统 的 关系 型 数据 ,还 包含 来 自 网 页 、 互 联网 日 志文 件 ( 包 括 单 击 流 数 据 )、 
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搜索 索引 、` 社 交 媒 体 论 坛 .电子 邮件 文档、 主动 和 被 动 系统 的 传感器 数据 等 原始 . 半 结 构 
化 和 非 结构 化 数据 。 

种 类 表示 所 有 的 数据 类 型 。 其 中 ,爆发 式 增长 的 一 些 数据 ,如 互联 网 上 的 文本 数据 、 
位 置信 息 、 传 感 器 数据 、 视 频 等 ,用 企业 中 主流 的 关系 型 数据 库 是 很 难 存 储 的 ,它们 都 属于 
非 结 构 化 数据 。 

当然 ,在 这 些 数据 中 ,有 一 些 是 过 去 就 一 直 存 在 并 保存 下 来 的 。 和 过 去 不 同 的 是 ， 
除了 存储 ,还 需要 对 这 些 大 数据 进行 分 析 , 并 从 中 获得 有 用 的 信息 。 例 如 监控 摄像 机 
中 的 视频 数据 。 近 年 来 ,超市 、 便 利 店 等 零售 企业 几乎 都 配备 了 监控 摄像 机 ,最 初 目的 
是 为 了 防范 盗窃 ,但 现在 也 出 现 了 使 用 监控 摄像 机 的 视频 数据 来 分 析 顾 客 购 买 行为 的 
案例 。 

例如 ,美国 高 级 文具 制造 商 万 宝 龙 (Montblane) 过 去 是 凭 经 验 和 直觉 来 决定 商品 陈 
列 布局 的 ,现在 尝试 利用 监控 摄像 头 对 顾客 在 店内 的 行为 进行 分 析 。 通 过 分 析 监 控 摄 像 
机 的 数据 ,将 最 想 卖 出 去 的 商品 移动 到 最 容易 吸引 顾客 目光 的 位 置 ,使 得 销售 额 提高 
了 20%。 

美国 移动 运营 商 T-Mobile 也 在 其 全 美 1000 家 店 中 安装 了 带 视频 分 析 功 能 的 监控 摄 
像 机 ,可 以 统计 来 店 人 数 , 还 可 以 追踪 顾客 在 店内 的 行动 路 线 、 在 展台 前 停留 的 时 间 ,甚至 
是 试用 了 哪 一 款 手机 、 试 用 了 多 长 时 间 等 ,对 顾客 在 店内 的 购买 行为 进行 分 析 。 


3. Velocity( 速度 ) 


数据 产生 和 更 新 的 频率 ,也 是 衡量 大 数据 的 一 个 重要 特征 。 就 像 我 们 收集 和 存储 的 
数据 量 和 种 类 发 生 了 变化 一 样 ,生成 和 需要 处 理 数据 的 速度 也 在 变化 。 不 要 将 速度 的 概 
念 限定 为 与 数据 存储 相关 的 增长 速率 ,应 动态 地 将 此 定义 应 用 到 数据 , 即 数据 流动 的 速 
度 。 有 效 处 理 大 数据 需要 在 数据 变化 的 过 程 中 对 它 的 数量 和 种 类 执行 分 析 , 而 不 只 是 在 
它 静 止 后 执行 分 析 。 

例如 ,遍布 全 国 的 便利 店 在 24 小 时 内 产生 的 POS 机 数据 , 电 商 网 站 中 由 用 户 访 问 所 
产生 的 网 站 点 击 流 数 据 , 高 峰 时 达到 每 秒 近 万 条 的 微 信 短文 ,全 国 公路 上 安装 的 交通 堵塞 
探测 传感器 和 路 面 状 况 传感器 (可 检测 结 冰 、 积 雪 等 路 面 状态 ) 等 ,每 天 都 在 产生 着 庞大 的 
数据 。 

IBM 在 3V 的 基础 上 又 归纳 总 结 了 第 4 个 V: Veracity( 真 实 和 准确 )。“ 只 有 真实 
而 准确 的 数据 才能 让 对 数据 的 管控 和 治理 真正 有 意义 。 随 着 社交 数据 、 企 业内 容 、 交 易 与 
应 用 数据 等 新 数据 源 的 兴起 ,传统 数据 源 的 局 限 性 被 打破 ,企业 愈 发 需要 有 效 的 信息 治理 
以 确保 其 真实 性 及 安全 性 。” 

IDC( 互 联网 数据 中 心 ) 说 :“ 大 数据 是 一 个 貌似 不 知道 从 哪里 冒 出 来 的 大 的 动力 。 但 
是 实际 上 ,大 数据 并 不 是 新 生 事物 。 然 而 , 它 确实 正在 进入 主流 ,并 得 到 重大 关注 ,这 是 有 
原因 的 。 廉 价 的 存储 ,传感器 和 数据 采集 技术 的 快速 发 展 、 通 过 云 和 虚拟 化 存储 设施 增加 
的 信息 链 路 ,以 及 创新 软件 和 分 析 工 具 , 正 在 驱动 着 大 数据 。 大 数据 不 是 一 个 “事物 ,而 
是 一 个 跨 多 个 信息 技术 领域 的 动力 /活动 。 大 数据 技术 描述 了 新 一 代 的 技术 和 架构 ,其 被 
设计 用 于 : 通过 使 用 高 速 (Velocity) 的 采集 发 现 和 /或 分 析 , 从 超大 容量 (Volume) 的 多 
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样 (Variety) 数 据 中 经 济 地 提取 价值 (Value)。” 

这 个 定义 除了 揭示 大 数据 传统 的 3V 基本 特征 , 即 Volume( 大 数据 量 )、Variety( 多 样 
性 ) 和 Velocity( 高 速 ), 还 增添 了 一 个 新 特征 : Value( 价 值 ) 。 

大 数据 实现 的 主要 价值 可 以 基于 下 面 三 个 评价 准则 中 的 一 个 或 多 个 进行 评判 。 

(1) 它 提供 了 更 有 用 的 信息 吗 ? 

(2) 它 改 进 了 信息 的 精确 性 吗 ? 

(3) 它 改 进 了 响应 的 及 时 性 吗 ? 

总 之 ,大 数据 是 一 个 动态 的 定义 ,不 同行 业 根 据 其 应 用 的 不 同 有 着 不 同 的 理解 ,其 稀 
量 标准 也 在 随 着 技术 的 进步 而 改变 。 


1.1.4 广义 的 大 数据 


狭义 上 ,大 数据 的 定义 着 眼 点 于 数据 的 性 质 上 ,我 们 在 广义 层面 上 再 为 大 数据 下 一 个 
定义 (图 1-6)。 


人 才 、 组 织 
(数据 科学 家 等 ) 


数据 处 理 、 

存储 、 分 析 技 术 
(Hadoop ~ NoSQL 、 
机 器 学 习 、 统 计 分 析 等 ) 


广义 的 
大 数据 


非 结 构 化 数据 
(文本 、 视 频 、 声 音 、 


传感器 、GPS 等 ) 狭义 的 大 
结构 化 数据 Ey 


(客户 数据 、 
销售 数据 等 ) 


1-6 广义 的 大 数据 


“所 谓 大 数据 ,是 一 个 综合 性 概念 , 它 包括 因 具 备 3V(Volume/Variety/Velocity) 特 
征 而 难以 进行 管理 的 数据 ,对 这 些 数据 进行 存储 、 处 理 、 分 析 的 技术 ,以 及 能 够 通过 分 析 这 
些 数据 获得 实用 意义 和 观点 的 人 才 和 组 织 。” 

“存储 、 处 理 、 分 析 的 技术 ”, 指 的 是 用 于 大 规模 数据 分 布 式 处 理 的 框架 Hadoop、 具 备 
良好 扩展 性 的 NoSQL 数据 库 , 以 及 机 器 学 习 和 统计 分 析 等 ;“ 能 够 通过 分 析 这 些 数据 获 
得 实用 意义 和 观点 的 人 才 和 组 织 ”. 指 的 是 目前 十 分 紧俏 的 “数据 科学 家 ”这 类 人 才 , 以 及 
能 够 对 大 数据 进行 有 效 运 用 的 组 织 。 


12 大 数据 变革 思维 
如 今 , 人 们 不 再 认为 数据 是 静止 和 陈旧 的 。 但 在 以 前 ,一 旦 完成 了 收集 数据 的 目的 之 
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后 ,数据 就 会 被 认为 已 经 没有 用 处 了 。 比方 说 ,在 飞机 降落 之 后 , 票 价 数据 就 没有 用 了 (对 
谷歌 而 言 , 则 是 一 个 检索 命令 完成 之 后 ) 。 壁 如 某 城市 的 公交 车 因为 价格 不 依赖 于 起 点 和 
终点 ,所 以 能 够 反映 重要 通勤 信息 的 数据 被 工作 人 员 “ 自 作 主 张 * 地 丢弃 了 一 一 设计 人 员 
如 果 没 有 大 数据 的 理念 ,就 会 丢失 掉 很 多 有 价值 的 数据 。 

数据 已 经 成 为 一 种 商业 资本 ,一 项 重要 的 经 济 投 入 ,可 以 创造 新 的 经 济 利益 。 事 实 
上 ,一 旦 思维 转变 过 来 ,数据 就 能 被 巧妙 地 用 来 激发 新 产品 和 新 型 服务 。 数 据 的 奥妙 只 为 
谦逊 、 愿 意 聆听 且 和 掌握 了 聆听 手段 的 人 所 知 。 

最 初 ,大 数据 这 个 概念 是 指 需 要 处 理 的 信息 量 过 大 ,已 经 超出 了 一 般 计算 机 在 处 理 数 
据 时 所 能 使 用 的 内 存量 ,因此 工程 师 们 必须 改进 处 理 数 据 的 工具 。 这 导致 了 新 的 处 理 技 
术 的 诞生 ,例如 谷歌 的 MapReduce 和 开源 Hadoop 平台 。 这 些 技术 使 得 人 们 可 以 处 理 的 
数据 量 大 大 增加 。 更 重要 的 是 ,这 些 数据 不 再 需要 用 传统 的 数据 库 表格 来 整齐 地 排列 ,这 
些 都 是 传统 数据 库 结构 化 查询 语言 (SQL) 的 要 求 , 而 非 关系 型 数据 库 (NoSQL) 就 不 再 有 
这 些 要求 。 一 些 可 以 消除 僵化 的 层次 结构 和 一 致 性 的 技术 也 出 现 了 。 同 时 ,因为 互联 网 
公司 可 以 收集 大 量 有 价值 的 数据 ,而 且 有 利用 这 些 数据 的 强烈 的 利益 驱动 力 , 所 以 互联 网 
公司 顺理成章 地 成 为 最 新 处 理 技术 的 领衔 实践 者 。 

今天 ,大 数据 是 人 们 获得 新 的 认 知 .创造 新 的 价值 的 源泉 ,大 数据 还 是 改变 市 场 组织 
机 构 ,以 及 政府 与 公民 关系 的 方法 。 大 数据 时 代 对 人 们 的 生活 ,以 及 与 世界 交流 的 方式 都 
提出 了 挑战 。 


13 大 数据 的 结构 类 型 


大 数据 具有 多 种 形式 ,从 高 度 结 构 化 的 财务 数据 ,到 文本 文件 .多 媒体 文件 和 基因 定 
位 图 的 任何 数据 ,都 可 以 称 为 大 数据 。 数 据 量 大 是 大 数据 的 一 致 特征 。 由 于 数据 自身 的 
复杂 性 ,作为 一 个 必然 的 结果 ,处 理 大 数据 的 首选 方法 就 是 在 并 行 计算 的 环境 中 进行 大 规 
模 并 行 处 理 (Massively Parallel Processing, MPP) .这 使 得 同时 发 生 的 并 行 摄取 、 并 行 数 
据 装载 和 分 析 成 为 可 能 。 实 际 上 ,大 多 数 的 大 数据 都 是 非 结 构 化 或 半 结 构 化 的 ,这 需要 不 
同 的 技术 和 工具 来 处 理 和 分 析 。 

大 数据 最 突出 的 特征 是 它 的 结构 。 图 1-7 显示 了 几 种 不 同 数据 结构 类 型 数据 的 增长 
趋势 ,由 图 可 知 ,未 来 数据 增长 的 80% 一 90% 将 来 自 于 不 是 结构 化 的 数据 类 型 ( 半 、 准 和 
非 结 构 化 )。 

虽然 图 1-7 显示 了 4 种 不 同 的 、 相 分 离 的 数据 类 型 ,实际 上 ,有 时 这 些 数据 类 型 是 可 
以 被 混合 在 一 起 的 。 例 如 ,有 一 个 传统 的 关系 数据 库 管理 系统 保存 着 一 个 软件 支持 呼叫 
中 心 的 通话 日 志 : 这 里 有 典型 的 结构 化 数据 :比如 日 期 /时 间 戳 .机 器 类 型 .问题 类 型 .操作 
系统 ,这 些 都 是 在 线 支 持 人 员 通 过 图 形 用 户 界 面 上 的 下 拉 式 菜单 输入 的 。 另 外 ,还 有 非 结 
构 化 数据 或 半 结 构 化 数据 ,比如 自由 形式 的 通话 日 志 信 息 , 这 些 可 能 来 自 包含 问 题 的 电子 
邮件 ,或 者 技术 问题 和 解决 方案 的 实际 通话 描述 。 另 一 种 可 能 是 与 结构 化 数据 有 关 的 实 
际 通 话 的 语音 日 志 或 者 音频 文字 实录 。 即 使 是 现在 ,大 多 数 分 析 人 员 还 无 法 分 析 这 种 通 
话 日 志 历 史 数 据 库 中 的 最 普通 和 高 度 结 构 化 的 数据 ,因为 挖 握 文本 信息 是 一 项 强度 很 大 
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的 工作 ,并 且 无 法 简单 地 实现 自动 化 。 
人 们 通常 最 熟悉 结构 化 数据 的 分 析 , 然 而 , 半 结 构 化 数据 (XML)、“ 准 ”结构 化 数据 
(网 站 地 址 字符 串 ) 和 非 结 构 化 数据 代表 了 不 同 的 挑战 ,需要 不 同 的 技术 来 分 析 。 


个 * 包 括 预 定义 的 数据 类 型 、 格 式 和 结构 的 数据 
结构 化 。 举 例 : 事务 性 数据 和 联机 分 析 处 理 


。 具 有 可 识别 的 模式 并 可 以 解析 的 文本 数据 文件 


更 六 结构 化 。 举例， 自 描述 和 具有 定义 模式 的 XML 数 据 文件 
相 “ 具有 不 规则 数据 格式 的 文本 数据 ， 通 过 使 用 上 具 
“ 准 " 结 构 化 可 以 使 之 格式 化 


。 举 例 : 包含 不 一 致 的 数据 值 和 格式 的 网 站 点 击 数据 


“没有 固定 结构 的 数据 ， 通 常 保存 为 不 同类 
非 结构 化 型 的 文件 
。 举 例 : 文本 文档 、PDF 文 档 、 图 像 和 视频 


1-7 数据 增长 日 益 趋向 非 结 构 化 


14 大 数据 的 发 展 


如 果 仅仅 是 从 数据 量 的 角度 来 看 ,大 数据 在 过 去 就 已 经 存在 了 。 例 如 ,波音 的 喷气 发 
动机 每 30min 就 会 产生 10TB 的 运行 信息 数据 ,安装 有 4 台 发 动机 的 大 型 客机 ,每 次 飞越 
大 西洋 就 会 产生 640TB 的 数据 。 世 界 各 地 每 天 有 超过 2. 5 万 架 的 飞机 在 工作 ,可 见 其 数 
据 量 是 何等 庞大 。 生 物 技术 领域 中 的 基因 组 分 析 , 以 及 以 NASA( 美 国 国家 航空 航天 局 ) 
为 中 心 的 太空 开发 领域 ,从 很 早 就 开始 使 用 十 分 昂贵 的 高 端 超级 计算 机 来 对 庞大 的 数据 
进行 分 析 和 处 理 了 。 

现在 和 过 去 的 区 别 之 一 ,就 是 大 数据 已 经 不 仅 产 生 于 特定 领域 中 ,而 且 产 生 于 人 们 每 
天 的 日 常生 活 中 ,Facebook、 推 特 、 领 英 (LinkedIn) 、 微 信 、QQ 等 社交 媒体 上 的 文本 数据 
就 是 最 好 的 例子 。 而 且 , 尽 管 我 们 无 法 得 到 全 部 数据 ,但 大 部 分 数据 可 以 通过 公开 的 API 
(应 用 程序 编程 接口 ) 相 对 容易 地 进行 采集 。 在 B2C( 商 家 对 顾客 ) 企 业 中 ,使 用 文本 挖掘 
和 情感 分 析 等 技术 ,就 可 以 分 析 消 费 者 对 于 自家 产品 的 评价 。 


1.4.1 硬件 性 价 比 提高 与 软件 技术 进步 


随 着 计算 机 性 价 比 的 提高 ,磁盘 价格 的 下 降 , 利 用 通用 服务 器 对 大 量 数 据 进 行 高 速 处 
理 的 软件 技术 Hadoop 的 诞生 ,以 及 云 计算 的 兴起 ,甚至 已 经 无 须 自行 搭建 这 样 的 大 规模 
环境 一 一 上 述 这 些 因素 ,大 幅 降 低 了 大 数据 存储 和 处 理 的 门槛 。 因 此 ,过 去 只 有 像 
NASA 这 样 的 研究 机 构 以 及 屈指 可 数 的 几 家 特大 企业 才能 做 到 的 对 大 量 数据 的 深入 分 
析 ,现在 只 要 极 小 的 成 本 和 时 间 就 可 以 完成 。 无 论 是 刚刚 创业 的 公司 还 是 存在 多 年 的 公 
司 ,也 无 论 是 中 小 企业 还 是 大 企业 ,都 可 以 对 大 数据 进行 充分 的 利用 。 


和 


1. 计算 机 性 价 比 的 提高 


承担 数据 处 理 任务 的 计算 机 ,其 处 理 能 力 遵 循 摩尔 定律 ,一 直 在 不 断 进化 。 所 谓 摩尔 
定律 ,是 美国 英特尔 公司 共同 创始 人 之 一 的 高 登 . 摩尔 (Gordon Moore,1929 一 ) 于 
1965 年 提出 的 一 个 观点 , 即 “ 半 导体 芯片 的 集成 度 ,大 约 每 18 个 月 会 翻 一 番 ”。 从 家 电 卖 
场 中 所 陈列 的 计算 机 规格 指标 就 可 以 一 目 了 然 地 看 出 ,现在 以 同样 的 价格 能 够 买 到 的 计 
算 机 ,其 处 理 能 力 已 经 和 过 去 不 可 同日 而 语 了 。 


2 磁盘 价格 的 下 降 


除了 CPU 性 能 的 提高 ,硬盘 等 存储 器 (数据 的 存储 装置 ) 的 价格 也 明显 下 降 。2000 
年 的 硬盘 驱动 器 平均 每 GB 容量 的 单价 约 为 16 一 19 美元 ,而 现在 却 只 有 7 美 分 (换算 成 
人 民 币 ,就 相当 于 4 一 5 角 钱 的 样子 ) ,相当 于 下 降 到 了 10 年 前 的 1/230 一 1/270。 

变化 的 不 仅 是 价格 ,存储 器 在 重量 方面 也 产生 了 巨大 的 进步 。1982 年 ,日 立 最 早 开 
发 的 超 1GB 级 硬盘 驱动 器 (容量 为 1. 2GB) ,重量 约 为 250 磅 ( 约 合 113kg)。 而 现在 ， 
32GB 的 微型 SD 卡 重量 却 只 有 0. 5g 左右 ,技术 进步 的 速度 相当 惊人 。 


3. 大 规模 数据 分 布 式 处 理 技术 Hadoop 的 诞生 


Hadoop 是 一 种 可 以 在 通用 服务 器 上 运行 的 开源 分 布 式 处 理 技术 , 它 的 诞生 成 为 目 
前 大 数据 浪潮 的 第 一 推动 力 。 如 果 只 是 结构 化 数据 不 断 增 长 ,用 传统 的 关系 型 数据 库 
和 数据 仓库 ,或 者 是 其 衍生 技术 ,就 可 以 进行 存储 和 处 理 了 ,但 这 样 的 技术 无 法 对 非 结 
构 化 数据 进行 处 理 。Hadoop 的 最 大 特征 ,就 是 能 够 对 大 量 非 结 构 化 数据 进行 高 速 
处 理 。 


1.4.2 云 计算 的 普及 


大 数据 的 处 理 环 境 现在 在 很 多 情况 下 并 不 一 定 要 自行 搭建 了 。 例 如 ,使 用 亚马逊 的 
云 计算 服务 EC2(Elastic Compute Cloud) 和 S3(Simple Storage Service) ,就 可 以 在 无 须 
自行 搭建 大 规模 数据 处 理 环境 的 前 提 下 ,以 按 用 量 付费 的 方式 ,来 使 用 由 计算 机 集群 组 成 
的 计算 处 理 环境 和 大 规模 数据 存储 环境 了 。 此 外 ,在 EC2 和 S3 上 还 利用 预先 配置 的 
Hadoop 工作 环境 提供 了 EMR(Elastic Map Reduce) 服 务 。 利 用 这 样 的 云 计 算 环 境 , 即 使 
是 资金 不 太 充裕 的 创业 型 公司 ,也 可 以 进行 大 数据 的 分 析 了 。 

实际 上 ,在 美国 ,新 的 IT 创业 公司 如 雨后春笋 般 不 断 出 现 , 它 们 通过 利用 亚马逊 的 
云 计算 环境 ,对 大 数据 进行 处 理 , 从 而 催生 出 新 型 的 服务 。 这 些 公司 如 网 络 广告 公司 
Razorfish、 提 供 预 测 航班 起 飞 晚 点 等 “航班 预报 ”服务 的 FlightCaster、 对 消费 电子 产品 价 
格 走势 进行 预测 的 Decide. com 等 。 


1.4.3 大 数据 作为 BI 的 进化 形式 
认识 大 数据 ,还 需要 理解 BI(Business Intelligence, 商 业 智 能 ) 的 潮流 和 大 数据 之 间 
的 关系 。 对 企业 内 外 所 存储 的 数据 进行 组 织 性 、 系 统 性 的 集中 、 整 理 和 分 析 , 从 而 获得 对 
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各 种 商务 决策 有 价值 的 知识 和 观点 ,这样 的 概念 .技术 及 行为 称 为 BI。 大 数据 作为 BI 的 
进化 形式 ,充分 利用 后 不 仅 能 够 高 效 地 预测 未 来 ,也 能 够 提高 预测 的 准确 率 。 

BI 这 个 概念 ,是 1989 年 由 时 任 美国 高 德 纳 (Gartner) 咨 询 公 司 的 分 析 师 Howard 
Dresner 所 提出 的 。Dresner 当时 提出 的 观点 是 ,应 该 将 过 去 100% 依 赖 信息 系统 部 门 来 
完成 的 销售 分 析 、 客 户 分 析 等 业务 ,通过 让 作为 数据 使 用 者 的 管理 人 员 以 及 一 般 商 务 人 员 
等 最 终 用 户 来 亲自 参与 ,从 而 实现 决策 的 迅速 化 以 及 生产 效率 的 提高 。 

BI 的 主要 目的 是 分 析 从 过 去 到 现在 发 生 了 什么 ,为 什么 会 发 生 , 并 做 出 报告 。 也 就 
是 说 ,是 将 过 去 和 现在 进行 可 视 化 的 一 种 方式 。 例 如 ,过 去 一 年 中 商品 A 的 销售 额 如 何 ， 
它 在 各 个 门店 中 的 销售 额 又 分 别 如 何 。 

然而 ,现在 的 商业 环境 变化 十 分 剧烈 。 对 于 企业 今后 的 活动 来 说 ,在 将 过 去 和 现在 进 
行 可 视 化 的 基础 上 ,预测 出 接 下 来 会 发 生 什 么 显得 更 为 重要 。 也 就 是 说 ,从 看 到 现在 到 预 
测 未 来 ,BI 也 正在 经 历 着 不 断 的 进化 。 

要 对 未 来 进行 预测 ,从 庞大 的 数据 中 发 现 有 价值 的 规则 和 模式 的 数据 挖掘 (Data 
Mining) 是 一 种 非常 有 用 的 手段 。 为 了 让 数据 挖掘 的 执行 更 加 高 效 ,就 要 使 用 能 够 从 大 
量 数据 中 自动 学 习 知 识 和 有 用 规则 的 机 器 学 习 技术 。 从 特性 上 来 说 ,机 器 学 习 对 数据 的 
要 求 是 越 多 越 好 。 也 就 是 说 , 它 和 大 数据 可 谓 是 天 生 一 对 。 一 直 以 来 ,机 器 学 习 的 瓶颈 在 
于 如 何 存 储 并 高 效 处 理学 习 所 需 的 大 量 数据 。 然 而 , 随 着 硬盘 单价 的 大 幅 下 降 、Hadoop 
的 诞生 ,以 及 云 计 算 的 普及 ,这 些 问题 正 逐 步 得 以 解决 。 现 实 中 ,对 大 数据 应 用 机 器 学 习 
的 实例 正在 不 断 涌现 。 


1.4.4 从 交易 数据 分 析 到 交互 数据 分 析 


对 从 像 “ 卖 出 了 一 件 商品 ”“ 一 位 客户 解除 了 合同 "这样 的 交易 数据 中 得 到 的 “点 ” 信 
息 进 行 统计 还 不 够 ,我 们 想 要 得 到 的 是 “为 什么 卖 出 了 这 件 商品 *“ 为 什么 这 个 客户 离开 
了 ?这样 的 上 下 文 ( 背 景 ) 信 息 。 而 这 样 的 信息 ,需要 从 与 客户 之 间 产 生 的 交互 数据 这 种 
“ 线 ” 信 息 中 来 探索 。 以 非 结构 化 数据 为 中 心 的 大 数据 分 析 需 求 的 不 断 高 涨 , 也 正 是 这 种 
趋势 的 一 个 反映 。 

例如 , 像 亚 马 逊 这 样 运营 电 商 网 站 的 企业 ,可 以 通过 网 站 的 点 击 量 数据 ,追踪 用 户 在 
网 站 内 的 行为 ,从 而 对 用 户 从 访问 网 站 到 最 终 购买 商品 的 行为 路 线 进行 分 析 。 这 种 点 击 
量 数据 , 正 是 表现 客户 与 公司 网 站 之 间 相 互 作 用 的 一 种 交互 数据 。 

举 个 例子 ,如 果 知 道 通过 点 击 站 内 广告 最 终 购买 产品 的 客户 比例 较 高 ,那么 针对 其 他 
客户 ,就 可 以 根据 其 过 去 的 点 击 记录 来 展示 他 可 能 感 兴趣 的 商品 广告 ,从 而 提高 其 最 终 购 
买 商品 的 概率 。 或 者 ,如 果 知道 很 多 用 户 都 会 从 某 一 个 特定 的 页 面 离 开 网 站 ,就 可 以 下 功 
夫 来 改善 这 个 页 面 的 可 用 性 。 通 过 交互 数据 分 析 所 得 到 的 价值 是 非常 大 的 。 

对 于 消费 品 公司 来 说 ,可 以 通过 客户 的 会 员 数 据 、 购 物 记录 、 呼 叫 中 心 通话 记录 等 数 
据 来 寻找 客户 解约 的 原因 。 最 近 . 随 着 “社交 化 CRM” 呼 声 的 高 涨 , 越 来 越 多 的 企业 都 开 
始 利用 微 信 、Twitter 等 社交 媒体 来 提供 客户 支持 服务 了 。 上 述 这 些 都 是 表现 与 客户 之 
间 交 流 的 交互 数据 ,只 要 推进 对 这 些 交 互 数据 的 分 析 .就 可 以 越 来 越 清晰 地 掌握 客户 离开 
的 原因 。 
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一 般 来 说 ,网 络 上 的 数据 比 真 实 世界 中 的 数据 更 加 容易 收集 ,因此 来 自 网 络 的 交互 数 
据 也 得 到 了 越 来 越 多 的 利用 。 不 过 ,今后 随 着 传感器 等 物 态 探测 技术 的 发 展 和 普及 ,在 真 
实 世 界 中 对 交互 数据 的 利用 也 将 不 断 推进 。 

例如 ,在 超市 中 ,可 以 将 由 植 人 购物 车 中 的 IC 标签 收集 到 的 顾客 行动 路 线 数据 和 
POS 等 销售 数据 相 结合 ,从 而 分 析出 顾客 买 或 不 买 某 种 商品 的 理由 ,这 样 的 应 用 现在 已 
经 开始 出 现 了 。 或 者 ,也 可 以 像 前 面 讲 过 的 那样 ,通过 分 析 监 控 摄 像 机 的 视频 资料 ,来 分 
析 店 内 顾客 的 行为 。 以 前 也 并 不 是 没有 对 店内 的 购买 行为 进行 分 析 的 方法 ,不 过 , 那 种 分 
析 大 多 是 由 调查 员 肉眼 观察 并 记录 的 ,这 种 记录 是 非 数字 化 的 ,成 本 很 高 ,而 且 收 集 到 的 
数据 也 比较 有 限 。 

进一步 讲 , 今 后 更 为 重要 的 是 对 连接 网 络 世界 和 真实 世界 的 交互 数据 进行 分 析 。 在 
市 场 营 销 的 世界 中 ,O2O(COnline to Offline, 线 上 与 线 下 的 结合 ) 已 经 逐步 成 为 一 个 热门 
的 关键 词 。 所 谓 O20 ,就 是 指 网 络 上 的 信息 (在 线 ) 对 真实 世界 ( 线 下 ) 的 购买 行为 产生 的 
影响 。 举 例 来 说 ,很 多 人 在 准备 购买 一 种 商品 时 会 先 到 评论 网 站 去 查询 商品 的 价格 和 评 
价 ,然后 再 到 实体 店 去 购买 该 商品 。 

在 020 中 ,网 络 上 的 哪些 信息 会 对 实际 来 店 顾客 的 消费 行为 产生 关联 ,对 这 种 线索 
的 分 析 , 即 对 交互 数据 的 分 析 , 显 得 尤为 重要 。 


【延伸 阅读 】 
得 数据 者 得 天 下 


我 们 的 衣食 住 行 都 与 大 数据 有 关 , 每 天 的 生活 都 离 不 开 大 数据 ,每 个 人 都 被 大 数据 里 
氛 着 。 大 数据 提高 了 我 们 的 生活 品质 ,为 每 个 人 提供 创新 平台 和 机 会 。 

大 数据 通过 数据 整合 分 析 和 深度 挖 气 , 发 现 规律 ,创造 价值 ,进而 建立 起 物理 世界 到 
数字 世界 到 网 络 世界 的 无 颖 链接 。 大 数据 时 代 , 线 上 与 线 下 ,虚拟 与 现实 、 软 件 与 硬件 、 跨 
界 融合 ,将 重 塑 我 们 的 认 知 和 实践 模式 ,开启 一 场 新 的 产业 突进 与 经 济 转型 。 

国家 行政 学 院 常务 副 院 长 马建堂 说 ,大 数据 其 实 就 是 海量 的 、 非 结构 化 的 、 电 子 形态 
存在 的 数据 ,通过 数据 分 析 , 能 产生 价值 , 带 来 商机 的 数据 。 

而 (大 数据 时 代 ) 的 作者 维 克 多 ， 舍 恩 伯 格 这 样 定义 大 数据 ,“ 大 数据 是 人 们 在 大 规模 
数据 的 基础 上 可 以 做 到 的 事情 ,而 这 些 事情 在 小 规模 数据 的 基础 上 无 法 完成 。 


大 数据 是 “21 世纪 的 石油 和 金 矿 ” 


工业 和 信息 化 部 部 长 苗 圩 在 为 《大 数据 领导 干部 读本 》 作 序 时 形容 大 数据 为 “21 世纪 
的 石油 和 金 矿 ”, 是 一 个 国家 提升 综合 竞争 力 的 又 一 关键 资源 。 

而 马建堂 在 致辞 中 也 指出 ,大 数据 可 以 大 幅 提 升 人 类 认识 和 改造 世界 的 能 力 , 正 以 前 
所 未 有 的 速度 颠覆 着 人 类 探索 世界 的 方法 ,焕发 出 变革 经 济 社 会 的 巨大 力量 。“ 得 数据 者 
得 天 下 ”已 成 为 全 球 普遍 共识 。 

“从 资源 的 角度 看 ,大 数据 是 “未 来 的 石油 ”; 从 国家 治理 的 角度 看 ,大 数据 可 以 提升 治 
理 效率 、 重 构 治 理 模 式 ,将 掀起 一 场 国家 治理 革命 ;从 经 济 增长 角度 看 ,大 数据 是 全 球 经 济 
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低迷 环境 下 的 产业 亮点 ;从 国家 安全 角度 看 ,大 数据 能 成 为 大 国之 间 博 弈 和 较量 的 利器 。” 
马建堂 在 (大 数据 领导 干部 读本 ) 序 言 中 这 样 界定 大 数据 的 战略 意义 。 

总 之 ,国家 竞争 焦点 因 大 数据 而 改变 ,国家 间 竞 争 将 从 资本 、 土 地 、 人 口 、 资 源 转向 对 
大 数据 的 争夺 ,全 球 竞争 版 图 将 分 成 数据 强国 和 数据 弱 国 两 大 新 阵营 。 

苗 圩 在 (大 数据 领导 干部 读本 》 序 言 中 说 ,数据 强国 主要 表现 为 拥有 数据 的 规模 、 活 跃 
程度 及 解释 、 处 置 \. 运 用 的 能 力 。 数 字 主 权 将 成 为 继 边防 ,海防 、 空 防 之 后 另 一 大 国 博弈 的 
空间 。 谁 掌握 了 数据 的 主动 权 和 主导 权 , 谁 就 能 赢得 未 来 。 新 一 轮 的 大 国 竞争 ,并 不 只 是 
在 硝烟 弥漫 的 战场 ,更 是 通过 大 数据 增强 对 整个 世界 局 势 的 影响 力 和 主导 权 。 


大 数据 可 促进 国家 治理 变革 


专家 们 普遍 认为 ,大 数据 的 渗透 力 远 超人 们 想象 , 它 正 改变 甚至 颠覆 我 们 所 处 的 时 
代 , 将 对 经 济 社会 发 展 、 企 业经 营 和 政府 治理 等 方方面面 产生 深远 影响 。 

的 确 , 大 数据 不 仅 是 一 场 技术 革命 ,还 是 一 场 管 理 革 命 。 它 提升 人 们 的 认 知 能 力 , 是 
促进 国家 治理 变革 的 基础 性 力量 。 在 国家 治理 领域 ,打造 阳光 政府 责任 政府 智慧 政府 
建设 上 都 离 不 开 大 数据 ,大 数据 为 解决 以 往 的 “顽疾 ”和 "“ 痛 点 "提供 强大 支撑 ;大 数据 还 能 
将 精准 医疗 .个 性 化 教育 .社会 监管 .与 情 检测 预警 等 以 往 无 法 实现 的 环节 变 得 简单 、 可 
操作 。 

中 国 行政 体制 改革 研究 会 副 会 长 周文 彰 认 同 大 数据 是 一 场 治理 革命 。 他 说 :“ 大 数 
据 将 通过 全 息 数 据 呈 现 , 使 政府 从 “主观 主义 ，、“ 经 验 主义 ”的 模糊 治理 方式 , 迈 向 “实事 求 
是 “数据 驱动 "的 精准 治理 方式 。 在 大 数据 条 件 下 ，“ 人 在 干 ` 云 在 算 、 天 在 看 " ,数据 驱动 
的 “精准 治理 体系 ”智慧 决策 体系 ”阳光 权力 平台 ”都 将 逐渐 成 为 现实 。” 

马建堂 在 为 《大 数据 领导 干部 读本 》 作 序 时 也 说 ,对 于 决策 者 而 言 ,大 数据 能 实现 整个 
苍穹 尽 收 眼底 ,可 以 解决 “ 坐 并 观 天 ”一 叶 障 目光 瞎子 摸 象 ?和 " 城 门 失 火 , 瑞 及 池 鱼 ” 问 
题 。 另 外 ,大 数据 是 人 类 认识 世界 和 改造 世界 能 力 的 升华 , 它 能 提升 人 类 “一 叶 知 秋 ”“ 运 
筹 帷 悍 ,决胜 千里 ”的 能 力 。 

专家 们 认为 ,大 数据 时 代 开 辟 了 政府 治理 现代 化 的 新 途径 : 大 数据 助力 决策 科学 化 ， 
公共 服务 个 性 化 、 精 准 化 ;实现 信息 共享 融合 ,推动 治理 结构 变革 ,从 一 元 主导 到 多 元 合 
作 ; 大 数据 催生 社会 发 展 和 商业 模式 变革 ,加 速 产业 融合 。 


中 国 具 备 数据 强国 潜力 2020 年 数据 规模 将 位 居 第 一 


2015 年 是 中 国 建设 制造 强国 和 网 络 强国 承前启后 的 关键 之 年 。 今 后 的 中 国 , 大 数据 
将 充当 越 来 越 重 要 的 角色 ,中 国 也 具备 成 为 数据 强国 的 优势 条 件 。 

马建堂 说 ,近年 来 ,党 中 央 、 国 务 院 高 度 重视 大 数据 的 创新 发 展 ,准确 把 握 大 融合 、 大 
变革 的 发 展 趋 势 ,制定 发 布 了 《中 国 制造 2025》 和 ”互联 网 十 ”行动 计划 ,出 台 了 《关于 促进 
大 数据 发 展 的 行动 纲要 》, 为 我 国 大 数据 的 发 展 指明 了 方向 ,可 以 看 作 是 大 数据 发 展 “ 顶 层 
设计 ?和 "战略 部 署 ", 具 有 划时代 的 深远 影响 。 

工信部 正在 构建 大 数据 产业 链 , 推 动 公共 数据 资源 开放 共享 ,将 大 数据 打造 成 经 济 提 
质 增 效 的 新 引擎 。 
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另外 ,中 国 是 人 口 大 国 、 制 造 业 大 国 、 互 联网 大 国 、 物 联网 大 国 ,这 些 都 是 最 活跃 的 数 
据 生产 主体 ,未 来 几 年 成 为 数据 大 国 也 是 逻辑 上 的 必然 结果 。 中 国 成 为 数据 强国 的 潜力 
极为 突出 ,2010 年 中 国 数据 占 全 球 比 例 为 10% ,2013 年 占 比 为 13% ,2020 年 占 比 将 达 
18%。 届 时 ,中 国 的 数据 规模 将 超过 美国 ,位 居 世 界 第 一 。 专 家 指出 ,中 国 许多 应 用 领域 
已 与 主要 发 达 国 家 处 于 同一 起 跑 线 上 ,具备 了 厚积薄发 .登高 望 远 的 条 件 ,在 新 一 轮 国际 
竞争 和 大 国 博 弈 中 具有 超越 的 潜在 优势 。 中 国 应 顺应 时 代 发 展 趋势 , 抓 住 大 数据 发 展 带 
来 的 契机 ,拥抱 大 数据 ,充分 利用 大 数据 提升 国家 治理 能 力 和 国际 竞争 力 。 
资料 来 源 : 数据 科学 家 网 


【实验 与 思考 】 
了 解 大 数据 及 其 在 线 支 持 


1. 实验 目的 


(1) 熟悉 大 数据 技术 的 基本 概念 和 主要 内 容 ; 

(2) 通过 因特网 搜索 与 浏览 ,了解 网 络 环境 中 主流 的 数据 科学 专业 网 站 ,人 掌握 通过 专 
业 网 站 不 断 丰富 大 数据 最 新 知识 的 学 习 方法 ,尝试 通过 专业 网 站 的 辅助 与 支持 来 开展 大 
数据 技术 应 用 实践 。 


2. 工具 /准备 工作 

在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 。 
3. 实验 内 容 与 步骤 

1) 概念 理解 


(1) 请 结合 查阅 相关 文献 资料 ,为 “大 数据 "给 出 一 个 权威 性 的 定义 。 
答 : 


这 个 定义 的 来 源 是 : 
(2) 请 具体 描述 大 数据 的 3V。 


答 : 
Volume( 数 量 ): 


@ Variety( 多 样 性 ) : 


@@ Velocity( 速 度 ) : 


第 人 中富 因 师 所 司 内 焕 扎 动人 我 


(3) 请 结合 查阅 相关 文献 资料 ,简单 阐述 “促进 大 数据 发 展 ” 的 主要 因素 。 
答 : 
(0 


2) 延伸 阅读 
参考 本 章 的 “延伸 阅读 ”, 请 阐述 为 什么 文章 说 “得 数据 者 得 天 下 ”。 
答 : 


3) 网 络 搜索 和 浏览 
看 看 哪些 网 站 在 支持 大 数据 技术 或 者 数据 科学 的 技术 工作 ? 请 在 表 1-1 中 记录 你 的 
搜索 结果 。 
表 1-1 数据 科学 专业 网 站 实验 记录 
网 站 名 称 网 址 主要 内 容 描述 


提示 : 一 些 大 数据 或 者 数据 科学 的 专业 网 站 : 
http://www. thebigdata. cn/( 中 国 大 数据 ) 
http://www。 shujukexuejia. cn/ (数据 科学 家 ) 
http://www. 51bdtime. com/( 大 数据 时 代 ) 
你 习惯 使 用 的 网 络 搜索 引擎 是 : 


你 在 本 次 搜索 中 使 用 的 关键 词 主要 是 : 


天 茹 时 时 公 


请 记录 : 在 本 实验 中 你 感觉 比较 重要 的 两 个 大 数据 或 者 数据 科学 专业 网 站 是 : 
(1) 网 站 名 称 : 


(2) 网 站 名 称 : 


请 分 析 : 你 认为 各 大 数据 专业 网 站 当前 的 技术 热点 (例如 从 培训 项 目 中 得 知 )。 
(1) 名 称 : 


技术 热点 : 


(2) 名 称 : 


技术 热点 : 


(3) 名 称 : 


技术 热点 : 


4. 实验 总 结 


5. 实验 评价 (教师 ) 


大 数据 的 可 视 化 


【导读 案例 】 
南 丁 共 尔 “ 极 区 图 ” 


弗 洛 伦 斯 南 丁 格 尔 (1820 年 5 月 12 日 一 1910 年 8 月 13 日 ,图 2-1) 是 世界 上 第 一 
个 真正 意义 上 的 女 护 士 ,被 誉 为 现代 护理 业 之 母 ,“5。12 国际 护士 节 ” 就 是 为 了 纪念 她 ， 
这 一 天 是 南 丁 格 汞 的 生日 。 除 了 在 医学 和 护理 界 的 辉煌 成 就 ,实际 上 , 南 丁 格 汞 还 是 一 名 
优秀 的 统计 学 家 一 一 她 是 英国 皇家 统计 学 会 的 第 一 位 女性 会 员 , 也 是 美国 统计 学 会 的 会 
员 。 据 说 南 丁 格 尔 早 期 大 部 分 声望 都 来 自 其 
对 数据 清楚 且 准 确 的 表达 。 

南 丁 格 尔 生 活 的 时 代 各 个 医院 的 统计 资 
料 非常 不 精确 ,也 不 一 致 ,她 认为 医学 统计 资 
料 有 助 于 改进 医疗 护理 的 方法 和 措施 。 于 是 ， 
在 她 编著 的 各 类 书籍 、 报 告 等 材料 中 使 用 了 大 
量 的 统计 图 表 , 其 中 最 为 著名 的 就 是 极 区 图 
(Polar Area Chart), 也 叫 南 丁 格 东 玫瑰 图 
(图 2-2) 。 

南 丁 格 尔 发 现 ,战斗 中 阵亡 的 士兵 数量 少 
于 因为 受伤 却 缺 乏 治疗 的 士兵 。 为 了 挽救 更 
多 的 士兵 ,她 画 了 这 张 《 东 部 军队 (战士 ) 死 亡 原因 示意 图 )(1858 年 )。 

这 张 图 描述 了 1854 年 4 月 一 1856 年 3 月 期 间 士 兵 死亡 情况 , 右 图 是 1854 年 4 月 - 
1855 年 3 月 , 左 图 是 1855 年 4 月 一 1856 年 3 月 ,用 蓝 、 红 、 黑 三 种 颜色 表示 三 种 不 同 的 情 
况 , 蓝 色 代 表 可 预防 和 可 缓解 的 疾病 治疗 不 及 时 造成 的 死亡 、 红 色 代 表 战 场 阵亡 、 黑 色 代 
表 其 他 死亡 原因 。 图 表 各 扇 区 角度 相同 ,用 半径 及 扇 区 面积 来 表示 死亡 人 数 , 可 以 清晰 地 
看 出 每 个 月 因 各 种 原因 死亡 的 人 数 。 显 然 ,1854 一 1855 年 , 因 医 疗 条 件 而 造成 的 死亡 人 数 
远 远大 于 战 死 沙场 的 人 数 , 这 种 情况 直到 1856 年 年 初 才 得 到 缓解 。 南 丁 格 尔 的 这 张 图 表 以 
及 其 他 图 表 “ 生 动 有 力 地 说 明了 在 战地 开展 医疗 救护 和 促进 伤 兵 医疗 工作 的 必要 性 ,打动 了 
当局 者 ,增加 了 战地 医院 ,改善 了 军队 医院 的 条 件 ,为 挽救 士兵 生命 做 出 了 巨大 贡献 ”。 

南 丁 格 尔 的 “ 极 区 图 ”是 统计 学 家 对 利用 图 形 来 展示 数据 进行 的 早期 探索 , 南 丁 格 尔 
的 贡献 充分 说 明了 数据 可 视 化 的 价值 ,特别 是 在 公共 领域 的 价值 。 


图 2-1 南 丁 格 尔 
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图 2-2 南 丁 格 尔 “ 极 区 图 ” 


图 2-3 是 社交 网 站 (Facebook vs. 推 特 ) 对 比 信 息 图 ,是 一 张 典型 的 南 丁 格 尔 玫瑰 图 
( 极 区 图 ) 的 导读 案例 。 极 区 图 在 数据 统计 类 信息 图 表 中 是 常见 到 的 一 类 图 表 形 式 。 


图 2-3 极 区 图 : Facebook vs. 推 特 


阅读 上 文 , 请 思考 、 分 析 并 简单 记录 : 
(1) 你 看 到 过 且 印 象 深刻 的 数据 可 视 化 的 案例 。 
答 


从 : 


(2) 你 此 前 知道 南 丁 格 尔 吗 ? 你 此 前 是 否 知 道 南 丁 格 尔 玫瑰 图 ? 
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(3) 发 展 大 数据 可 视 化 ,传统 的 数据 或 信息 的 表示 方式 是 否 还 有 意义 ? 请 简 述 你 的 
答 : 


(4) 请 简单 记述 你 所 知道 的 上 一 周 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
答 : 


21 数据 与 可 视 化 


数据 是 什么 ? 大 部 分 人 会 含糊 地 回答 说 ,数据 是 一 种 类 似 电子 表格 的 东西 ,或 者 一 大 
堆 数字 。 有 点 儿 技术 背景 的 人 会 提 及 数据 库 或 者 数据 仓库 。 然 而 ,这 些 回 答 只 说 明了 获 
取 数据 的 格式 和 存储 数据 的 方式 ,并 未 说 明 数 据 的 本 质 是 什么 ,以 及 特定 的 数据 集 代 表 着 
什 友 。 

数据 不 仅仅 是 数字 ,要 想 把 数据 可 视 化 ,就 必须 知道 它 表 达 的 是 什么 。 事实 上 ,数据 
是 现实 世界 的 一 个 快照 ,会 传递 给 我 们 大 量 的 信息 。 一 个 数据 点 可 以 包含 时 间 、 地 点 ,人 
物 、 事 件 、 起 因 等 因素 ,因此 ,一 个 数字 不 再 只 是 沧海 一 票 。 可 是 ,从 一 个 数据 点 中 提取 信 
息 并 不 像 一 张 照片 那么 简单 。 你 可 以 猜 到 照片 里 发 生 的 事情 ,但 如 果 对 数据 心 存 侥幸 , 认 
为 它 非常 精确 ,并 和 周围 的 事物 紧密 相关 ,就 有 可 能 曲解 真实 的 数据 。 你 需要 观察 数据 产 
生 的 来 龙 去 脉 , 并 把 数据 集 作为 一 个 整体 来 理解 。 关 注 全 貌 , 比 只 注意 到 局 部 时 更 容易 做 
出 准确 的 判断 。 

通常 在 实施 记录 时 , 巾 于 成 本 太 高 或 者 缺少 人 力 , 或 二 者 此 有 ,人 们 不 大 可 能 记录 下 
一 切 ,而 是 只 能 获取 零碎 的 信息 ,然后 寻找 其 中 的 模式 和 关联 , 赁 经 验 猜测 数据 所 表达 的 
含义 ,数据 是 对 现实 世界 的 简化 和 抽象 表达 。 当 你 可 视 化 数据 的 时 候 ,其 实 是 在 将 对 现实 
世界 的 抽象 表达 可 视 化 ,或 至 少 是 将 它 的 一 些 细微 方面 可 视 化 。 可视化 是 对 数据 的 一 种 
抽象 表达 ,所 以 ,最 后 你 得 到 的 是 一 个 抽象 的 抽象 。 这 并 不 是 说 可 视 化 模糊 了 你 的 视角 。 
恰恰 相反 ,可 视 化 能 帮助 人 们 从 一 个 个 独立 的 数据 点 中 解脱 出 来 , 换 一 个 不 同 的 角度 去 探 
索 它们 。 

数据 和 它 所 代表 的 事物 之 间 的 关联 既是 把 数据 可 视 化 的 关键 ,也 是 全 面 分 析 数 据 的 
关键 ,同样 还 是 深层 次 理解 数据 的 关键 。 计 算 机 可 以 把 数字 批量 转换 成 不 同 的 形状 和 颜 
色 , 但 是 必须 建立 起 数据 和 现实 世界 的 联系 ,以 便 使 用 图 表 的 人 能 够 从 中 得 到 有 价值 的 信 
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数据 会 因 其 可 变性 和 不 确定 性 而 变 得 复杂 ,但 放 入 一 个 合适 的 背景 信息 中 ,就 会 变 得 
解 了 。 


本 节 以 美国 国家 公路 交通 安全 管理 局 发 布 的 公路 交通 事故 数据 为 例 ,来 了 解数 据 的 
可 变性 。 

从 2001 年 到 2010 年 ， 根据 美国 国家 公路 交通 安全 管理 局 发 布 的 数据 ， 全 美 共 发 生 了 
363 839 起 致命 的 公路 交通 事故 。 这 个 总 数 代表 着 那 部 分 逝去 的 生命 ,把 所 有 注意 力 放 
在 这 个 数字 上 (图 2-4) ,能 让 你 深思 ,甚至 反省 自己 的 一 生 。 

然而 ,除了 安全 驾驶 之 外 ,从 这 个 数据 中 你 还 学 到 了 什么 ? 美国 国家 公路 交通 安全 管 
理 局 提供 的 数据 具体 到 了 每 一 起 事故 及 其 发 生 的 时 间 和 地 点 ,可 以 从 中 了 解 到 更 多 的 
信息 。 

如 果 在 地 图 中 夯 出 2001 一 2010 年 间 全 美国 发 生 的 每 一 起 致命 的 交通 事故 ,用 一 个 点 
代表 一 起 事故 ,就 可 以 看 到 事故 多 集中 发 生 在 大 城市 和 高 速 公路 主干 道上 ,而 人 烟 稀少 的 
地 方 和 道路 几乎 没有 事故 发 生 过 。 这 样 ,这 幅 图 除了 告诉 我 们 对 交通 事故 不 能 掉以轻心 
之 外 ,还 告诉 了 我 们 关于 美国 公路 网 络 的 情况 。 

观察 这 些 年 里 发 生 的 交通 事故 ,人 们 会 把 关 切换 到 这 些 具体 的 事故 上 。 
图 2-5 显示 了 每 年 发 生 的 交通 事故 数 ,所 表达 的 内 容 与 简单 告诉 你 一 个 总 数 完全 不 同 。 
es 仍 会 发 生成 千 上 万 起 交通 事故 ,但 通过 观察 可 以 看 到 ,2006 一 2010 年 间 事 故 显 


著 呈 下 降 趋 势 。 
40000 - | 
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图 2-4 2001 一 2010 年 全 美 公路 致命 交通 事故 总 数 图 2-5 每 年 的 致命 交通 事故 数 


从 图 2-6 可 以 看 出 ,交通 事故 发 生 的 季节 性 周期 很 明显 。 夏 季 是 事故 多 发 期 ,因为 此 
时 外 出 旅游 的 人 较 多 。 而 在 冬季 ,开车 出 门 旅行 的 人 相对 较 少 ,事故 就 会 少 很 多 。 每 年 都 
是 如 此 。 同 时 ,还 可 以 看 到 2006 一 2010 年 呈 下 降 趋势 。 

如 果 比 较 那些 年 的 具体 月 份 ,还 有 一 些 变 化 。 例 如 ,在 2001 年 ,8 月 份 的 事故 最 多 ,9 
月 份 相对 回落 。 从 2002 年 到 2004 年 每 年 都 是 这 样 。 然 而 ,从 2005 年 到 2007 年 ,每 年 7 
月 份 的 事故 最 多 。 从 2008 年 到 2010 年 又 变 成 了 8 月 份 。 另 一 方面 ,因为 每 年 2 月 份 的 
天 数 最 少 ,事故 数 也 就 最 少 , 只 有 2008 年 例外 。 因 此 ,这 里 存在 着 不 同 季节 的 变化 和 季节 
内 的 变化 。 
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图 2-6 月 度 致命 交通 事故 数 


我 们 还 可 以 更 加 详细 地 观察 每 日 的 交通 事故 数 ,例如 看 出 高 峰 和 低谷 模式 ,可 以 看 出 
周 循环 周期 ,就 是 周末 比 周 中 事故 多 ,每 周 的 高 峰 日 在 周 五 \, 周 六 和 周 日 间 的 波动 。 可 以 
继续 增加 数据 的 粒度 , 即 观察 每 小 时 的 数据 。 

重要 的 是 ,查看 这 些 数据 比 查看 平均 数 、 中 位 数 和 总 数 更 有 价值 ,那些 测量 值 只 是 告 
诉 了 你 一 小 部 分 信息 。 大 多 数 时 候 , 总 数 或 数值 只 是 告诉 了 你 分 布 的 中 间 在 哪里 ,而 未 能 
显示 出 你 做 决定 或 讲述 时 应 该 关注 的 细节 。 

一 个 独立 的 离 群 值 可 能 是 需要 修正 或 特别 注意 的 。 也 许 在 你 的 体系 中 随 着 时 间 推 移 
发 生 的 变化 预示 有 好 事 ( 或 坏事 ) 将 要 发 生 。 周 期 性 或 规律 性 的 事件 可 以 帮助 你 为 将 来 做 
好 准备 ,但 面 对 那 么 多 的 变化 , 它 往往 就 失效 了 ,这 时 应 该 退回 到 整体 和 分 布 的 粒度 来 进 
行 观 察 。 
2.1.2 数据 的 不 确定 性 


数据 具有 不 确定 性 。 通 常 , 大 部 分 数据 都 是 估算 的 ,并 不 精确 。 分 析 师 会 研究 一 个 样 
本 ,并 据 此 猜测 整体 的 情况 。 每 天 你 都 在 做 这 样 的 事情 ,你 会 基于 自己 的 知识 和 见闻 来 猜 
测 ,尽管 大 多 数 的 时 候 你 确定 猜测 是 正确 的 ,但 仍然 存在 着 不 确定 性 。 

例如 ,笔记 本 上 的 电池 寿命 估计 会 按 小 时 增 量 跳动 ;地 铁 预 告 说 下 一 班车 将 会 在 
10min 内 到 达 , 但 实际 上 是 11min, 预 计 在 周一 送 达 的 一 份 快件 往往 周三 才 到 。 

如 果 数 据 是 一 系列 平均 数 和 中 位 数 , 或 者 是 基于 一 个 样本 群体 的 一 些 估算 ,就 应 该 时 
时 考虑 其 存在 的 不 确定 性 。 当 人 们 基于 类 似 全 国人 口 或 世界 人 口 的 预测 数 做 影响 广泛 的 
重大 决定 时 ,这 一 点 尤为 重要 ,因为 一 个 很 小 的 
误差 也 可 能 会 导致 巨大 的 差异 。 

换个 角度 ,想象 一 下 你 有 一 饶 彩 虹 糖 (图 2-7)， 
没 法 看 清 饶 子 里 的 情况 ,你 想 猜 猜 每 种 颜色 的 彩 
虹 糖 各 有 多 少 颗 。 如 果 你 把 一 缸 彩虹 糖 统统 倒 
在 桌子 上 ,一 颗 颗 数 过 去 ,就 不 用 估算 了 ,你 已 经 
得 到 了 总 数 。 但 是 你 只 能 抓 一 把 ,然后 基于 手 里 
的 彩虹 糖 推测 整 缸 的 情况 。 这 一 把 越 大 估计 值 
就 越 接近 整 饶 的 情况 ,也 就 越 容 易 猜 测 。 相 反 ， 图 2-7 彩虹 糖 
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如 果 只 能 拿 出 一 颗 彩 虹 糖 , 那 几 乎 就 无 法 推测 饶 子 里 的 情况 。 

只 拿 一 颗 彩虹 糖 ,误差 会 很 大 。 而 拿 一 大 把 彩虹 糖 ,误差 会 小 很 多 。 如 果 把 整 饶 都 数 
一 遍 , 误 差 就 是 零 。 当 有 数 百 万 颗 彩 虹 糖 装 在 上 千 个 大 小 不 同 的 饶 子 里 时 ,分 布 各 不 相 
同 ,每 一 把 的 大 小 也 不 一 样 ,估算 就 会 变 得 更 复杂 了 。 接 下 来 ,把 彩虹 糖 换 成 人 ,把 镀 子 换 
成 城镇 和 县 ,把 那 一 把 彩虹 糖 换 成 随机 分 布 的 调查 ,误差 的 含义 就 有 分 量 多 了 。 

如 果 不 考虑 数据 的 真实 含义 ,很 容易 产生 误解 。 要 始终 考虑 到 不 确定 性 和 可 变性 。 
这 也 就 到 了 背景 信息 发 挥 作用 的 时 候 了 。 


2.1.3 数据 所 依存 的 背景 信息 


仰望 夜空 , 满 天 繁 星 看 上 去 就 像 平 面 上 的 一 个 个 点 。 你 感觉 不 到 视觉 深度 ,会 觉得 星 
星 都 离 你 一 样 远 ,很 容易 就 能 把 星空 直接 搬 到 纸 面 上 ,于 是 星座 也 就 不 难 想象 了 ,把 一 个 
个 点 连接 起 来 即 可 。 然 而 ,实际 上 不 同 的 星星 与 你 的 距离 可 能 相差 许多 光 年 。 假 如 你 能 
飞 得 比 星星 还 远 , 星 座 看 起 来 又 会 是 什么 样子 呢 ? 

如 果 切 换 到 显示 实际 距离 的 模式 ,星星 的 位 置 转移 了 ,原先 容易 辨别 的 星座 几乎 认 不 
出 了 。 从 新 的 视角 出 发 ,数据 看 起 来 就 不 同 了 。 这 就 是 背景 信息 的 作用 。 背 景 信 息 可 以 
完全 改变 你 对 某 一 个 数据 集 的 看 法 , 它 能 帮助 你 确定 数据 代表 着 什么 以 及 如 何 解释 。 在 
确切 了 解 了 数据 的 含义 之 后 ,你 的 理解 会 帮 你 找 出 有 趣 的 信息 ,从 而 带 来 有 价值 的 可 视 化 
效果 。 

使 用 数据 而 不 了 解除 数值 本 身 之 外 的 任何 信息 ,就 好 比 拿 断 章 取 义 的 片段 作为 文章 
的 主要 论点 引用 一 样 。 这 样 做 或 许 没 有 问题 ,但 却 可 能 完全 误解 说 话 人 的 意思 。 你 必须 
首先 了 解 何 人 、 如 何 、 何 事 、 何 时 、 何 地 以 及 何 因 , 即 元 数据 ,或 者 说 关于 数据 的 数据 ,然后 
才能 了 解数 据 的 本 质 是 什么 。 

何人 (who):“ 谁 收集 了 数据 "和 * 数 据 是 关于 谁 的 "同样 重要 。 

如 何 (how): 大 致 了 解 怎样 获取 感 兴 趣 的 数据 。 如 果 数 据 是 你 收集 的 , 那 一 切 都 好 ， 
但 如 果 数 据 只 是 从 网 上 获取 到 的 ,这 样 ,你 不 需要 知道 每 种 数据 集 背 后 精确 的 统计 模型 ， 
但 要 小 心 小 样本 ,样本 小 ,误差 率 就 高 ,也 要 小 心 不 合 适 的 假设 ,比如 包含 不 一 致 或 不 相关 
信息 的 指数 或 排名 等 。 

何事 (what) : 还 要 知道 自己 的 数据 是 关于 什么 的 ,应 该 知道 围绕 在 数字 周围 的 信息 
是 什么 。 可 以 跟 学 科 专 家 交流 ,阅读 论文 及 相关 文件 。 

何 时 (when) : 数据 大 都 以 某 种 方式 与 时 间 关 联 。 数 据 可 能 是 一 个 时 间 序 列 , 或 者 是 
特定 时 期 的 一 组 快照 。 不 论 是 哪 一 种 ,都 必须 清楚 知道 数据 是 什么 时 候 采 集 的 。 由 于 只 
能 得 到 旧 数 据 , 于 是 很 多 人 便 把 旧 数 据 当 成 现在 的 对 付 一 下 ,这 是 一 种 常见 的 错误 。 事 在 
变 , 人 在 变 , 地 点 也 在 变 , 数 据 自 然 也 会 变 。 

何 地 (where) : 正如 事情 会 随 着 时 间 变 化 ,它们 也 会 随 着 城市 .地 区 和 国家 的 不 同 而 
变化 : 例如 ,不 要 将 来 自 少数 几 个 国家 的 数据 推 及 整个 世界 。 同 样 的 道理 也 适用 于 数字 
定位 。 来 自 推 特 或 Facebook 之 类 网 站 的 数据 能 够 概括 网 站 用 户 的 行为 ,但 未 必 适 用 于 物 
理 世 界 。 

为 何 (why): 最 后 ,必须 了 解 收集 数据 的 原因 .通常 这 是 为 了 检查 一 下 数据 是 否 存在 
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偏颇 。 有 时 人 们 收集 甚至 捏造 数据 只 是 为 了 应 付 某 项 议程 ,应当 警 惕 这 种 

ea re a iit pe 可 
视 化 通常 被 认为 是 一 种 图 形 设 计 或 破解 计算 机 科学 问题 的 练习 ,但 是 最 好 的 作品 往往 来 
源 于 数据 。 要 可 视 化 数据 ,必须 理解 数据 是 什么 , 它 代表 了 现实 世界 中 的 什么 ,以 及 应 该 
在 什么 样 的 背景 信息 中 解释 它 。 

在 不 同 的 粒度 上 ,数据 会 呈现 出 不 同 的 形状 和 大 小 ,并 带 有 不 确定 性 ,这 意味 着 总 数 、 
平均 数 和 中 位 数 只 是 数据 点 的 一 小 部 分 。 数 据 是 曲折 的 、 旋 转 的 ,也 是 波动 的 个 性 化 的 ， 
甚至 是 富有 诗意 的 。 因 此 ,可 以 看 到 多 种 形式 的 可 视 化 数据 。 


2.1.4 打造 最 好 的 可 视 化 效果 


当然 存在 计算 机 不 需要 人 为 干涉 就 能 单独 处 理 数 据 的 例子 。 例 如 , 当 要 处 理 数 十 亿 
条 搜索 查询 的 时 候 , 要 想 人 为 地 找 出 与 查询 结果 相 匹 配 的 文本 广告 是 根本 不 可 能 的 。 同 
样 ,计算 机 系统 非常 善于 自动 定价 ,并 在 百 万 多 个 交易 中 快速 判断 出 哪些 具有 欺骗 性 。 

但 是 ,人 类 可 以 根据 数据 做 出 更 好 的 决策 。 事实 上 ,我 们 拥有 的 数据 越 多 ,从 数据 中 
提取 出 具有 实践 意义 的 见解 就 显得 越 重 要 。 可 视 化 和 数据 是 相伴 而 生 的 ,将 这 些 数据 可 
视 化 ,可 能 是 指导 我 们 行动 的 最 强大 的 机 制 之 一 。 

可 视 化 可 以 将 事实 融和 人 数据 ,并 引起 情感 反应 , 它 可 以 将 大 量 数据 压缩 成 便于 使 用 的 
知识 。 因 此 ,可视化 不 仅 是 一 种 传递 大 量 信息 的 有 效 途径 , 它 还 和 大 脑 直接 联系 在 一 起 ， 
并 能 触动 情感 ,引起 化 学 反应 。 可 视 化 可 能 是 传递 数据 信息 最 有 效 的 方法 之 一 。 人 研究 表 
明 ,不 仅 可 视 化 本 身 很 重要 , 何 时 、 何 地 以 何 种 形式 旦 现 对 可 视 化 来 说 也 至 关 重 要 。 

通过 设置 正确 的 场景 ,选择 恰当 的 颜色 甚至 选择 一 天 中 合适 的 时 间 ,可视化 可 以 更 有 
效 地 传达 隐藏 在 大 量 数 据 中 的 真知 灼 见 。 科 学 证 据 证 明了 在 传递 信息 时 环境 和 传输 的 重 
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假设 你 是 第 一 次 来 到 华盛顿 特区 一 一 美利坚 合众国 的 首都 ,你 很 兴奋 ,激动 地 想 参 观 
白宫 和 所 有 的 纪念 碑 博物馆。 从 一 个 地 方 赶 到 另 一 个 地 方 , 为 此 ,你 需要 利用 当地 的 交 
通 系 统一 一 地 铁 ( 图 2-8) 。 这 看 上 去 挺 简 单 ,但 问题 是 : 你 如 果 没 有 地 图 ,不 知道 怎么 走 ， 
那么 ,即使 遇 上 个 好 心 人 热情 指点 ,要 弄 清 楚 
搭 哪 条 线路 ,在 哪个 站 上 车 .下 车 .简直 就 是 一 
场 驱 梦 。 不 过 , 幸运 的 是 ,华盛顿 地 铁 图 
(图 2-9) 可 以 传达 这 些 数据 信息 。 

地 图 上 每 条 线路 的 所 有 站 点 都 按照 顺序 
用 不 同 颜色 标记 出 来 ,还 可 以 在 上 面 看 到 线路 
交叉 的 站 点 。 这 样 一 来 :要 知道 在 哪里 换 乘 就 
很 容易 了 。 可 以 说 ,突然 之 间 开 清楚 如 何 搭乘 
地 铁 变 成 了 轻而易举 的 事情 。 地 铁 图 呈献 的 图 2-8 华盛顿 地 铁 


图 2-9 华盛顿 地 铁 图 


不 仅 是 数据 信息 ,更 是 清晰 的 认 知 。 

你 不 仅 知道 了 该 搭乘 哪 条 线路 ,还 大 概 知道 到 达 目 的 地 需要 花 多 长 时 间 。 无 须 多 想 ， 
就 能 知道 到 达 目 的 地 有 8 站 ,每 站 之 间 大 概 需要 几 分 钟 . 因 而 可 以 计算 出 从 你 所 在 的 位 署 
到 “航空 航天 博物 馆 " 要 花 上 二 十 多 分 钟 。 除 此 之 外 ,地 铁 图 上 的 路 线 不 仅 标 注 了 名 字 或 
终点 站 ,还 用 了 红 、 黄 、 蓝 , 绿 、 梅 不 用 的 颜色 来 帮助 你 辨认 。 每 条 线路 用 的 是 不 同 的 颜色 ， 
如 此 一 来 ,不 管 是 在 地 图 上 还 是 地 铁 外 的 墙壁 上 .只 要 想 查 找 地 铁 线路 ,都 能 通过 颜色 快 
速 辨 别 。 

将 信息 可 视 化 能 有 效 地 抓 住人 们 的 注意 力 。 有 的 信息 如 果 通 过 单纯 的 数字 和 文字 来 
传达 ,可 能 需要 花费 数 分 钟 甚 至 几 小 时 ,甚至 可 能 无 法 传达 ;但 是 通过 颜色 ,布局 .标记 和 
其 他 元 素 的 融合 ,图 形 却 能 够 在 几 秘 钟 之 内 就 把 这 些 信 息 传达 给 我 们 。 

通过 仔细 阅读 华盛顿 地 铁 图 , 理 清 了 头绪 .你 发 现 其 实 华盛顿 特区 只 有 86 个 地 铁 站 。 
日 本 东京 地 铁 系统 包括 东京 地 铁 公司 (Tokyo Metro) 和 都 营地 铁 公司 (the Toei) 两 大 地 
铁 运 营 系统 ,一 共有 274 个 站 。 算 上 东京 更 大 片区 的 所 有 铁路 系统 ,东京 一 共有 882 个 车 
站 (图 2-10) 。 要 是 没有 地 图 ,人 们 将 很 难 了 解 这 么 多 的 站 台 信息 。 


2.2.1 数据 与 走势 
在 使 用 电子 表格 软件 处 理 数据 时 会 发 现 ,要 从 填 满 数字 的 单元 格 中 发 现 走势 是 困难 
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图 2-10 东京 地 铁 图 


的 。 这 就 是 诸如 微软 电子 表格 软件 (Microsoft Excel) 和 全 果 电 子 表格 软件 (Apple 
Numbers) 这 类 程序 内 牌 图 表 生 成 功能 的 原因 之 一 。 一 般 来 说 ,人 们 在 看 一 个 折线 图 、 饼 
状 图 或 条 形 图 的 时 候 , 更 容易 发 现 事物 的 变化 走势 . 见 图 2-11。 

人 们 在 制定 决策 的 时 候 了 解 事物 的 变化 走势 至 关 重 要 。 不 管 是 讨论 销售 数据 还 是 健 
康 数据 ,一 个 简单 的 数据 点 通常 不 足以 告诉 我 们 事情 的 整个 变化 走势 。 

投资 者 常常 要 试 着 评估 一 个 公司 的 业绩 .一 种 方法 就 是 及 时 查看 公司 在 某 一 特定 时 
刻 的 数据 。 比 方 说 ,管理 团队 在 评估 某 一 特定 季度 的 销售 业绩 和 利润 时 , 若 没 有 将 之 前 几 
个 季度 的 情况 考虑 进去 的 话 ,他 们 可 能 会 总 结 说 公司 运营 状况 良好 。 但 实际 上 ,投资 者 没 
有 从 数据 中 看 出 公司 每 个 季度 的 业绩 增幅 都 在 减少 。 表 面 上 看 公司 的 销售 业绩 和 利润 似 
乎 还 不 错 , 而 事实 上 如 果 不 想 办 法 来 增加 销量 ,公司 甚至 很 快 就 会 走向 破产 。 

管理 者 或 投资 者 在 了 解 公 司 业 务 发 展 趋势 的 时 候 , 内 部 环境 信息 是 重要 指标 之 一 。 
管理 者 和 投资 者 同时 也 需要 了 解 外 部 环境 ,因为 外 部 环境 能 让 他 们 了 解 自己 的 公司 相对 
于 其 他 公司 运营 情况 如 何 。 

在 不 了 解 公司 外 部 运营 环境 时 .如 果 某 个 季度 销售 业绩 下 滑 ,管理 者 就 有 可 能 会 错误 
地 认为 公司 的 运营 情况 不 好 。 可 事实 上 .销售 业绩 下 滑 的 原因 可 能 是 由 大 的 行业 问题 引 
起 的 ,例如 ,房地产 行业 受 房屋 修 建 量 减少 的 影响 ,航空 业 受 出 行 减少 的 影响 等 。 

外 部 环境 是 指 同行 业 的 其 他 公司 在 同一 段 时 间 内 的 运营 情况 。 不 了 解 外 部 环境 , 管 
理 者 就 很 难 洞悉 究竟 是 什么 导致 了 公司 的 业务 受 损 。 即 使 管理 者 了 解 了 内 部 环境 和 外 部 
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环境 ,但 要 想 仅 通 过 抽象 的 数字 来 看 出 端倪 还 是 很 困难 的 ,而 图 形 可 以 帮助 他 们 解决 这 一 
问题 。 

大 卫 ， 麦克 坎 德 莱 斯 说 :“ 可 视 化 是 压缩 知识 的 一 种 方式 ”减少 数据 量 是 一 种 压缩 
方式 ,如 采用 速记 ,简写 的 方式 来 表示 一 个 词 或 者 一 组 词 。 但 是 ,数据 经 过 压缩 之 后 ,虽然 
更 容易 存储 , 却 让 人 难以 理解 。 然 而 ,图 片 不 仅 可 以 容纳 大 量 信息 ,还 是 一 种 便于 理解 的 
表现 方式 。 在 大 数据 里 ,这 样 的 图 片 就 叫做 “可 视 化 ”。 

地 铁 图 . 饼 状 图 和 条 形 图 都 是 可 视 化 的 表现 方式 。 乍 一 看 ,可 视 化 似乎 很 简单 。 但 由 
于 种 种 原因 ,要 理解 起 来 并 不 容易 。 首 先 , 它 很 难 满足 人 们 和 希望 将 所 有 数据 相互 衔接 并 出 
现在 同一 个 地 方 的 愿望 。 

其 次 ,内 部 环境 和 外 部 环境 的 数据 信息 可 能 存储 在 两 个 不 同 的 地 方 。 行 业 数据 可 能 
存储 在 市 场 调查 报告 之 中 ,而 公司 的 具体 销售 数据 则 存储 在 公司 的 数据 库 中 。 而 且 , 这 两 
种 数据 的 存储 模式 也 有 细微 的 差别 。 公 司 的 销售 数据 可 能 是 按 天 更 新 存储 的 ,而 可 用 的 
行业 数据 可 能 只 有 季度 数据 。 

最 后 ,数据 信息 不 统一 的 表达 方式 也 使 我 们 难以 理解 数据 真正 想 传达 的 信息 。 但 是 ， 
通过 获取 所 有 这 些 数据 信息 ,并 将 之 绘制 成 图 表 , 数 据 就 不 再 是 简单 的 数据 了 , 它 变 成 了 
知识 。 可 视 化 是 一 种 压缩 知识 的 形式 ,因为 看 似 简单 的 图 片 却 包含 大 量 结构 化 或 非 结 构 
化 的 数据 信息 。 它 用 不 同 的 线条 \ 颜 色 将 这 些 信息 进行 压缩 ,然后 快速 有 效 地 传达 出 数 
据 表示 的 含义 。 


2.2.2 视觉 信息 的 科学 解释 


在 数据 可 视 化 领域 ,爱德华 。 塔 夫 特 被 誉 为 "数据 界 的 列 奥 纳 多 。 达 。 芬 奇 ”。 他 的 
一 大 贡献 就 是 : 聚焦 于 将 每 一 个 数据 都 作成 图 示 物 一 一 无 一 例外 。 塔 夫 特 的 信息 图 形 不 
仅 能 传达 信息 ,甚至 被 很 多 人 看 作 是 艺术 品 。 塔 夫 特 指出 ,可视化 不 仅 能 作为 商业 工具 发 
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挥 作 用 ,还 能 以 一 种 视觉 上 引人入胜 的 方式 传达 数据 信息 。 

通常 情况 下 ,人 们 的 视觉 能 吸纳 多 少 信息 呢 ? 根据 美国 宾夕法尼亚 大 学 医学 院 的 研 
究 人 员 佑 计 , 人 类 视网膜 “视觉 输入 (信息 ?的 速度 可 以 和 以 太 网 的 传输 速度 相 媲美 ”。 在 
研究 中 ,研究 者 将 一 只 取 自 豚鼠 的 完好 视网膜 和 一 台 叫 做 “多 电极 阵列 ”的 设备 连接 起 来 ， 
该 设备 可 以 测量 神经 节 细胞 中 的 电 脉 冲 峰值 。 神 经 节 细 胞 将 信息 从 视网膜 传达 到 大 脑 。 
基于 这 一 研究 ,科学 家 们 能 够 估算 出 所 有 神经 节 细 胞 传递 信息 的 速度 。 其 中 一 只 豚鼠 视 
网 膜 含有 大 概 1 00 000 个 神经 节 细 胞 ,然后 ,相应 地 ,科学 家 们 就 能 够 计算 出 人 类 视网膜 
中 的 细胞 每 秒 能 传递 多 少数 据 。 人 类 视网膜 中 大 约 包含 1000 000 个 神经 节 细 胞 , 算 上 所 
有 的 细胞 ,人 类 视网膜 能 以 大 约 每 秒 10 兆 的 速度 传达 信息 。 

丹麦 的 著名 科学 作家 陶 。 诺 瑞 钱 德 证 明了 人 们 通过 视觉 接收 的 信息 比 其 他 任何 一 种 
感官 都 多 。 如 果 人 们 通过 视觉 接收 信息 的 速度 和 计算 机 网 络 相当 ,那么 通过 触觉 接收 信 
息 的 速度 就 只 有 它 的 1/10。 人 们 的 嗅觉 和 听觉 接收 信息 的 速度 更 慢 ,大 约 是 触觉 接收 速 
度 的 1/10。 同 样 ,人 们 通过 味蕾 接收 信息 的 速度 也 很 慢 。 

换 名 话说, 人们 通过 视觉 接收 信息 的 速度 比 其 他 感官 接收 信息 的 速度 快 了 10 一 100 
音 。 因 此 ,可 视 化 能 传达 庞大 的 信息 量 也 就 容易 理解 了 。 如 果 包 含 大 量 数据 的 信息 被 压 
缩 成 了 充满 知识 的 图 片 , 那 人 们 接收 这 些 信息 的 速度 会 更 快 。 但 这 并 不 是 可 视 化 数据 表 
示 法 如 此 强大 的 唯一 原因 。 另 一 个 原因 是 人 们 喜欢 分 享 ,尤其 喜欢 分 享 图 片 。 
2.2.3 图片 和 分 享 的 力量 

人 们 喜欢 照片 (图 片 ) 的 主要 原因 之 一 ,是 现在 拍照 很 容易 (图 2-12)。 数 码 相 机 、 
智能 手机 和 便 宣 的 存储 设备 使 人 们 可 以 拍摄 多 得 数 不 清 的 数码 照片 。 现 在 ,几乎 每 部 
智能 手机 都 有 内 置 摄像 头 。 这 就 意味 着 不 但 可 以 随意 拍照 ,还 可 以 轻松 地 上 传 或 分 享 
这 些 照片 。 这 种 轻松 .自在 的 拍摄 和 分 享 图 片 的 过 程 充满 了 乐趣 和 价值 ,自然 想 要 分 
享 它们 。 


图 2-12 Facebook 


和 照片 一 样 ,如 今 制作 信息 图 也 要 比 以 前 容易 得 多 。 公 司 制作 这 类 信息 图 的 动机 也 
很 多 。 公 司 的 营销 人 员 发 现 ,一 个 拥有 有 限 信 息 资 源 的 营销 人 员 该 做 些 什么 来 让 搜索 更 
加 吸引 人 呢 ? 答案 是 制作 一 张 信 息 图 。 信 息 图 可 以 吸纳 广泛 的 数据 资源 ,使 这 些 数据 相 
互 吻 合 , 甚 至 编造 一 个 引 人 人 和 人 胜 的 故事 。 博 主 和 记者 们 想方设法 地 在 自己 的 文章 中 加 进 


类 似 的 图 片 ,因为 读者 喜欢 看 图 片 ,同时 也 乐于 分 享 这 些 图 片 。 

最 有 效 的 信息 图 还 是 被 不 断 重复 分 享 的 图 片 。 其 中 有 一 些 图 片 在 网 上 疯 传 ,它们 在 
社交 网 站 如 Facebook. 推 特 、 领 英 、 微 信 以 及 我 们 传统 但 实用 的 邮件 里 ,被 分 享 了 数 千 次 
甚至 上 百 万 次 。 由 于 信息 图 制作 需求 的 增加 ,帮助 制作 这 类 图 形 的 公司 和 服务 也 随 之 
增多 。 
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公共 数据 集 是 指 可 以 公开 获取 的 政府 或 政府 相关 部 门 经 常 搜集 的 数据 。 人 口 普查 是 
收集 数据 的 一 种 形式 ,1790 年 美国 人 口 普查 局 首次 进行 美国 人 口 普查 .这 次 人 口 普 查 使 
美国 政府 获取 了 大 量 与 美国 人 口 相 关 的 信息 ,其 中 包括 人 口 的 组 成 及 其 地 理 分 布 。 这 些 
数据 对 于 人 们 了 解 人 口 变 化 .国家 兴衰 以 及 战胜 婴儿 死亡 率 与 其 他 流行 病 的 进程 尤为 重 
要 。 参 见 图 2-13。 


图 2-13 2014 年 美国 人 口 密 度 分 布 图 


一 直 以 来 ,很 多 著名 的 可 视 化 信息 中 所 使 用 的 公共 数据 都 是 通过 新 颖 、 吸 引 人 的 方式 
来 呈现 的 。 一 些 可 视 化 图 片 表 明 , 恰 当 的 图 片 可 以 非常 有 效 地 传达 信息 。 例 如 ,1854 年 
伦敦 爆发 霍乱 ,10 天 内 有 500 人 死去 ,但 比 死亡 更 加 让 人 和 恐慌 的 是 “未 知 ”, 人 们 不 知道 堆 
乱 的 源头 和 感染 分 布 。 只 有 流行 病 专家 约翰 。 斯 诺 意识 到 ,源头 来 自 市 政 供 水 。 约 翰 在 
地 图 上 用 黑 杠 标注 死亡 案例 ,最 终 地 图 “开口 说 话 ”( 图 2-14) ,形象 地 解释 了 大 街 水 龙头 
是 传染 源 ,被 污染 的 井 水 是 霍乱 传播 的 罪魁 祸首 。 这 张 信 息 图 还 使 公众 意识 到 城市 下 水 
系统 的 重要 性 并 采取 切实 行动 。 
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图 2-14 1854 年 伦敦 爆发 霍乱 
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很 多 信息 图 提供 的 信息 从 本 质 上 看 是 静态 的 。 通 常 制作 信息 图 需要 花费 很 长 的 时 间 
和 精力 : 它 需 要 数据 ,需要 展示 有 趣 的 故事 ,还 需要 以 图 标 将 数据 以 一 种 吸引 人 的 方式 呈 
现 出 来 。 但 是 工作 到 这 里 还 没 结束 。 图 表 只 有 经 过 发 布 , 加 工 、 分 享 和 查看 之 后 才 具 有 真 
正 的 价值 。 当 然 ,到 那 时 ,数据 已 经 成 了 几 周 或 几 个 月 前 的 旧 数 据 了 。 那 么 ,在 展示 可 视 
化 数据 时 要 怎样 在 吸引 人 的 同时 又 保证 其 时 效 性 呢 ? 

数据 要 具有 实时 性 价值 ,必须 满足 以 下 三 个 条 件 。 

(1) 数据 本 身 必须 要 有 价值 ; 

(2) 必须 有 足够 的 存储 空间 和 计算 机 处 理 能 力 来 存储 和 分 析 数 据 ; 

(3) 必须 要 有 一 种 巧妙 的 方法 及 时 将 数据 可 视 化 ,而 不 用 花费 几 天 或 几 周 的 时 间 。 

想 了 解数 百 万 人 是 如 何 看 待 实时 性 事件 ,并 将 他 们 的 想法 以 可 视 化 的 形式 展示 出 来 
看 似 遥 不 可 及 ,但 其 实 很 容易 达成 。 

在 过 去 的 几 十 年 ,美国 总 统 选举 过 程 中 的 投票 民意 测试 ,需要 测试 者 打 电 话 或 亲自 询 
问 每 个 选民 的 意见 。 通 过 将 少数 选民 的 投票 和 统计 抽样 方法 结合 起 来 ,民意 测试 者 就 能 
预测 选举 的 结果 ,并 总 结 出 人 们 对 重要 政治 事件 的 看 法 。 但 今天 ,大 数据 正 改 变 着 我 们 的 
调查 方法 。 

捕捉 和 存储 数据 只 是 像 推 特 这 样 的 公司 所 面临 的 大 数据 挑战 中 的 一 部 分 。 为 了 分 析 
这 些 数据 ,公司 开发 了 推 特 数据 流 , 即 支持 每 秒 发 送 5000 条 或 更 多 推 文 的 功能 。 在 特殊 
时 期 ,如 总 统 选举 辩论 期 间 , 用 户 发 送 的 推 文 更 多 ,大 约 每 秒 两 万 条 。 然 后 公司 又 要 分 析 
这 些 推 文 所 使 用 的 语言 , 找 出 通用 词汇 ,最 后 将 所 有 的 数据 以 可 视 化 的 形式 呈现 出 来 。 

要 处 理 数 量 庞大 且 具 有 时 效 性 的 数据 很 困难 ,但 并 不 是 不 可 能 。 推 特 为 大 家 熟知 的 
数据 流 人 口 配 备 了 编程 接口 。 像 推 特 一 样 ,Gnip 公司 也 开始 提供 类 似 的 渠道 。 其 他 公司 
(如 BrightContext) 提 供 实时 情感 分 析 工 具 。 在 2012 年 总 统 选 举 辩论 期 间 ,《 华 盛 顿 邮 
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报 》 在 观众 观看 辩论 的 时 候 使 用 BrightContext 的 实时 情感 模式 来 调查 和 绘制 情感 图 表 。 
实时 调查 公司 Topsy 将 大 约 两 千 亿 条 推 文 编 人 了 索引 ,为 推 特 的 政治 索引 提供 了 被 称 为 
Twindex 的 技术 支持 。Vizzuality 公司 专门 绘制 地 理 空间 数据 ,并 为 《华尔街 日 报 》 选 举 
图 提供 技术 支持 。 

与 电话 投票 耗 时 长 且 每 场面 谈 通常 要 花费 大 约 二 十 美元 相 比 ,上 述 公 司 所 采用 的 实 
时 调查 只 需 花 费 几 个 计算 周期 ,并 且 没 有 规模 限制 。 另 外 , 它 还 可 以 将 收集 到 的 数据 及 时 
进行 可 视 化 处 理 。 

但 信息 实时 可 视 化 并 不 只 是 在 网 上 不 停 地 展示 实时 信息 而 已 “谷歌 眼镜 ”( 图 2-15) 被 
《时 代 周 刊 》 称 为 2012 年 最 好 的 发 明 。“ 它 被 制 成 一 副 眼 镜 的 形状 ,增强 了 现实 感 ,使 之 成 
为 人 们 日 常生 活 的 一 部 分 ,” 将 来 ,人 们 不 仅 可 以 在 计算 机 和 手机 上 看 可 视 化 呈现 的 数据 ， 
还 能 边 四 处 走动 边 设 想 或 理解 这 个 物质 世界 。 


图 2-15 谷歌 眼镜 


25 挑战 图 像 的 多 变性 


麻 省 理工 学 院 和 哈佛 大 学 的 科学 家 们 在 他 们 所 著 的 一 篇 名 为 为 什么 现实 生活 中 识 
别 可 视 物 体 这 么 困难 ?》 的 论文 中 说 道 :“ 我 们 可 以 轻松 识别 可 视 物 体 , 这 种 轻松 正 是 计算 
机 识别 的 难处 。 主 要 挑战 就 是 图 像 的 多 变性 一 一 例如 物体 的 位 置 、 大 小 、 方 位 姿势、 亮度 
等 ,任何 一 个 物体 都 可 以 在 视网膜 上 投射 下 无 数 个 不 同 的 图 像 。 "简单 说 来 ,图 像 变化 多 
端 ,因此 很 难 分 辨 不 同 的 图 片 是 否 包含 相 同 的 人 或 物 。 而 且 , 图 案 识别 也 更 加 困难 ;尽管 
要 在 一 个 句子 中 找 出 “总 统 " 这 个 单词 很 容易 .在 上 百 万 个 句子 中 找 出 它 来 也 相对 简单 ,但 
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要 在 图 片 中 找 出 拥有 “总统 ”这 个 头衔 的 人 却 困难 重重 。 

让 某 个 人 描述 一 张 图 片 的 特征 很 容易 ,但 要 描述 上 百 万 张 图 片 该 怎么 办 呢 ? 为 了 解 
决 图 片 特征 问题 , 像 亚 马 逊 和 Facebook 这 样 的 公司 开始 向 众 包 市 场 了 ,如 oDesk 平台 和 
亚马逊 士 耳 其 机 器 人 @ 寻 求 帮 助 。 在 这 些 市 场 中 ,满足 特定 条 件 的 版 主 在 通过 了 某 项 测 
试 之 后 便 有 权 使 用 图 片 ,并 对 这 些 图 片 进行 描绘 和 过 滤 。 如 今 的 计算 机 比较 擅长 帮 人 们 
制作 可 视 化 效果 。 而 在 将 来 , 随 着 像 谷 歌 眼 镜 这 样 的 产品 不 断 演变 ,它们 能 更 好 地 帮 人 们 
理解 实时 的 可 视 化 信息 。 


26 数据 可 视 化 的 运用 
人 类 对 图 形 的 理解 能 力 非常 独到 ,往往 能 够 从 图 形 当中 发 现 数据 的 一 些 规律 ,而 这 


些 
规律 用 常规 的 方法 是 很 难 发 现 的 。 在 大 数据 时 代 ,. 数 据 量变 得 非常 大 ,而 且 非 常 烦琐 ,要 
想 发 现 数据 中 包含 的 信息 或 者 知识 ,可 视 化 是 最 有 效 的 途径 之 一 (图 2-16) 。 


图 2-16 深圳 受 大 面积 雷电 影响 。 图 为 某 日 18 时 至 31 日 0 时 共 记 录 到 9119 次 闪电 


数据 可 视 化 要 根据 数据 的 特性 ,如 时 间 信 息 和 空间 信息 等 ,找到 合适 的 可 视 化 方式 ， 
例如 图 表 (Chart) ,图 (Diagram) 和 地 图 (Map) 等 ,将 数据 直观 地 展现 出 来 ,以 帮助 人 们 理 
解数 据 , 同 时 找 出 包含 在 海量 数据 中 的 规律 或 者 信息 。 数 据 可 视 化 是 大 数据 生命 周期 管 
理 的 最 后 一 步 , 也 是 最 重要 的 一 步 。 

数据 可 视 化 起 源 于 图 形 学 、 计 算 机 图 形 学 、 人 工 智 能 、 科 学 可 视 化 以 及 用 户 界面 等 领 
域 的 相互 促进 和 发 展 ,是 当前 计算 机 科学 的 一 个 重要 研究 方向 , 它 是 利用 计算 机 对 抽象 信 
息 进 行 直观 地 表示 ,以 利于 快速 检索 信息 和 增强 认 知 能 力 。 

数据 可 视 化 系统 并 不 是 为 了 展示 用 户 的 已 知 数据 之 间 的 规律 ,而 是 为 了 帮助 用 户 通 


四 ” 众 包 (Crowdsourcing) 指 的 是 一 个 公司 或 机 构 把 过 去 由 员工 执行 的 工作 任务 ,以 自由 自愿 的 形式 外 包 给 非特 
定 的 (而 且 通 常 是 大 型 的 ) 大 众 网 络 的 做 法 。 众 包 的 任务 通常 是 由 个 人 来 承担 ,但 如 果 涉 及 需要 多 人 协作 完成 的 任务 ， 
也 有 可 能 以 依靠 开源 的 个 体 生产 的 形式 出 现 。 众 包 植 根 于 一 个 平等 主义 原则 :每 个 人 都 拥有 对 别人 有 价值 的 知识 或 
才华 。 众 包 作为 桥梁 将 “我 "和 “他 人 ”联系 起 来 。 

加 ”亚马逊 土 耳 其 机 器 人 (Amazon Mechanical Turk) 是 一 个 Web 服务 应 用 程序 接口 (APD ,开发 商 通过 它 将 人 
的 智能 与 远程 过 程 调用 (RPC) 整 合 ,用 来 完成 计算 机 很 难 完成 但 人 工 智能 容易 执行 的 任务 ,如 写 产品 描述 等 。 
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过 认 知 数据 有 新 的 发 现 ,发 现 这 些 数据 所 反映 的 实质 。 如 图 2-17 所 示 ,CLARITY 成 像 
技术 使 科学 家 们 不 需要 切片 就 能 够 看 穿 整个 
大 脑 。 

斯 坦 福 大 学 生物 工程 和 精神 病 学 负责 
Karl Deisseroth 说 :“ 以 分 子 水 平和 全 局 范围 
观察 整个 大 脑 系统 ,曾经 一 直 都 是 生物 学 领域 
一 个 无 法 实现 的 重大 目标 .” 也 就 是 说 ,用 户 在 
使 用 \ 可 视 化 系统 之 前 往往 没有 明确 的 目 
标 。 信 息 可 视 化 系统 在 探索 性 任务 (例如 包含 
大 数据 量 信息 ) 中 有 突出 的 表现 , 它 可 以 帮助 图 2-17 CLARITY 成 像 技 术 
用 户 从 大 量 的 数据 空间 中 找到 关注 的 信息 来 
进行 详细 的 分 析 。 因 此 ,数据 可 视 化 主要 应 用 于 下 面 几 种 情况 。 

(1) 当 存 在 相似 的 底层 结构 ,相似 的 数据 可 以 进行 归 类 时 。 

(2) 当 用 户 处 理 自己 不 熟悉 的 数据 内 容 时 。 

(3) 当 用 户 对 系统 的 认 知 有 限时 ,并 且 喜 欢 用 扩展 性 的 认 知 方法 时 。 

(4) 当 用 户 难 以 了 解 底层 信息 时 。 

(5) 当 数 据 更 适合 感知 时 。 


2.6.1 可 视 化 对 认 知 的 帮助 


科学 可 视 化 (Scientific Visualization) 是 科学 之 中 的 一 个 跨 学 科研 究 与 应 用 领域 , 主 
要 关注 的 是 三 维 现象 的 可 视 化 ,如 建筑 学 、 气 象 学 、 医 学 或 生物 学 方面 的 各 种 系统 。 重 点 
在 于 对 体面 以 及 光源 等 的 逼真 泻 染 ,或许 甚至 还 包括 某 种 动态 (时 间 ) 成 分 。 科 学 
侧重 于 利用 计算 机 图 形 学 来 创建 视觉 图 像 , 从 而 帮助 人 们 理解 那些 采取 错综复杂 
往 规模 庞大 的 数字 呈现 形式 的 科学 概念 或 
结果 。 

对 于 科学 可 视 化 来 说 ,三 维 是 必要 的 , 因 
为 典型 问题 涉及 连续 的 变量 、 体 积 和 表面 积 
(内 /外 、 左 / 右 和 上 /下 )( 图 2-18)。 然 而 ,对 于 
信息 可 视 化 来 说 ,典型 问题 包含 更 多 的 分 类 变 
量 和 股票 价格 、 医 疗 记录 或 社会 关系 之 类 数据 

-= 中 模式 ,趋势 . 聚 类 、 异 类 和 空白 的 发 现 。 

图 2-18 500hPa 高 度 场 的 三 维 显 示 人 的 眼睛 是 人 们 感知 世界 的 最 主要 途径 ， 
因此 ,数据 可 视 化 提供 了 一 种 感性 的 认 知 方 
式 , 是 提高 人 们 感知 能 力 的 重要 途径 。 可 视 化 可 以 扩大 人 们 的 感知 :增加 人 们 对 海量 数据 
分 析 的 一 系列 的 想法 和 分 析 经 验 ,从 而 对 人 们 的 感知 和 学 习 提 供 参 考 或 者 帮助 。 

通常 为 了 交互 式 操纵 从 大 得 多 的 数据 集中 可 能 提取 出 大 量 条 目 (10? 一 105), 信 
视 化 提供 紧凑 的 图 形 表示 和 用 户 界面 。 有 时 称 其 为 视觉 数据 挖掘 , 它 使 用 巨大 的 视觉 带 
宽 和 非凡 的 人 类 感知 系统 ,使 用 户 能 够 对 模式 、 条 目 分 组 或 单个 条 目 有 所 发 现 . 做 出 决定 
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或 提出 解释 。 它 甚至 可 能 允许 用 户 回答 他 们 不 知道 他 们 具有 的 问题 。 

感知 心理 学 家 ,统计 学 家 和 平面 设计 师 提 供 关 于 呈现 静态 信息 的 宝贵 指南 ,但 动态 显 
示 的 机 会 远 远 超 出 用 户 界面 设计 人 员 当 前 的 智慧 。 人 类 具有 非凡 的 感知 能 力 ,它们 在 当 
前 的 大 多 数 界面 设计 中 远 未 被 充分 利用 。 用 户 能 够 快速 地 浏览 ,识别 和 回忆 图 像 , 能 够 察 
觉 大 小 、 颜 色 、 形 状 、 移 动 或 质地 的 微妙 变化 。 在 图 形 用 户 界面 中 呈现 的 核心 信息 大 部 分 
仍旧 是 文字 导向 的 (虽然 已 用 吸引 人 的 图 标 和 优雅 的 插图 增强 ) ,倘若 探索 更 视觉 化 的 方 
法 ,吸引 人 的 新 机 会 就 会 出 现 。 

有 些 用 户 抵 制 视觉 方法 ,偏爱 强 有 力 的 文本 方法 ,诸如 多 菜单 和 多 分 面 元 数据 搜索 中 
的 数字 查询 预览 。 他 们 的 选择 可 能 是 恰当 的 ,因为 这 些 文本 工具 使 用 紧凑 的 呈现 ,这 种 呈 
现 有 丰富 的 \ 有 意义 的 信息 且 令 人 欣慰 地 熟悉 。 成 功 的 信息 可 视 化 工具 必须 不 止 是 “ 酷 ”， 
它们 还 必须 为 实际 任务 提供 可 测量 的 好 处 。 它 们 必须 被 构建 来 满足 在 各 种 平台 上 工作 、 
使 得 包括 残疾 用 户 的 所 有 预期 用 户 均 能 访问 的 普遍 可 用 性 原则 。 


2.6.2 7 个 数据 类 型 


按 任务 分 类 的 数据 类 型 包括 7 个 基本 数据 类 型 和 7 个 基本 任务 。 基 本 数据 类 型 是 一 
维 ` 二 维 、 三 维 或 多 维 的 ,接着 是 三 种 结构 化 更 强 的 数据 类 型 : 时 态 的 、 树 的 和 网 络 的 。 这 
种 简化 对 于 描述 已 被 开发 的 可 视 化 和 表示 用 户 所 遇 到 的 问题 类 别 的 特征 是 有 用 的 。 例 
如 ,对 于 时 态 数据 ,用 户 处 理事 件 和 间隔 ,他 们 的 问题 关心 的 是 之 前 ,之 后 或 之 中 。 对 于 树 
状 结构 的 数据 ,用 户 处 理 内 部 节点 上 的 标签 和 叶 节 点 的 值 。 他 们 的 问题 是 关于 路 径 、 级 次 
和 子 树 的 。 例 如 : 

(1) 1D 线性 数据 。 线 性 数据 类 型 是 一 维 的 ,它们 包括 程序 源 代码 、 文 本 文档 .字典 和 
按 字 母 顺序 的 名 字 列 表 , 所 有 这 一 切 均 能 按 顺序 方式 组 织 。 对 程序 源 代码 来 说 ,1 个 像 
素 / 字 符 的 大 量 压缩 产生 单个 显示 器 上 有 数 以 万 计 源 程序 代码 行 的 紧凑 显示 。 属 性 ,诸如 
最 近 修 改 日 期 或 作者 名 ,可 能 被 用 于 颜色 编码 。 界 面 设计 问题 包括 使 用 什么 颜色 、 大 小 和 
布局 以 及 给 用 户 提供 什么 概览 滚动 或 选择 方法 。 用 户 的 任务 可 能 是 查找 条 目的 数量 、 查 
看 有 某 些 属性 (例如 ,从 先前 版 本 以 来 被 改变 的 程序 行 ) 的 条 目 。 

(2) 2D 地 图 数据 。 平面 数据 包括 地 理 图 .平面 布置 图 和 报纸 版 面 。 集 合 中 的 每 个 条 
目 覆 盖 整 个 区 域 的 某 个 部 分 ,每 个 条 目 都 有 任务 域 属性 (诸如 名 字 、 所 有 者 和 值 ) 和 界面 域 
特征 (诸如 形状 大小、 颜色 和 不 透明 度 , 见 图 2-19) 。 

很 多 系统 采用 多 层 方 法 来 处 理 地 图 数据 ,但 每 层 都 是 二 维 的 。 用 户 任务 包括 查找 邻 
近 条 目 、 包 含 某 些 条 目的 区 域 和 两 个 条 目 之 间 的 路 径 , 以 及 执行 7 个 基本 任务 。 例 如 地 理 
信息 系统 , 它 是 一 个 庞大 的 研究 和 商用 领域 (图 2-20) 。 

(3) 3D 世界 数据 。 现 实 世 界 的 对 象 ,诸如 分 子 、 人 体 和 建筑 物 ,具有 体积 和 与 其 他 条 
目的 复杂 关系 。 计 算 机 辅助 的 医学 影像 建筑 制图 、 机 械 设计 、 化 学 结构 建 模 和 科学 仿真 
被 构建 来 处 理 这 些 复杂 的 三 维 关系 。 用 户 的 任务 通常 是 处 理 连续 变量 ,诸如 温度 或 密度 。 
结果 经 常 被 表示 为 体积 和 表面 积 .用 户 关注 左 / 右 、 上 /下 和 内 /外 的 关系 。 在 三 维 应 用 程 
序 中 , 当 观 察 对 象 时 ,用 户 必须 处 理 查看 对 象 时 它们 的 位 置 和 方向 ,必须 处 理 遮 挡 与 导航 
的 潜在 问题 , 见 图 2-21。 
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图 2-19 可 视 化 技术 呈现 的 2016 年 英国 公投 脱 欧 
(英国 脱 欧 公 投 各 地 的 投票 率 ,颜色 越 深 的 投票 率 越 高 , 圈 中 所 在 是 英国 的 主要 城市 。 
这 个 图 说 明 : 小 地 方 的 投票 意愿 , 比 精英 所 在 的 大 城市 强烈 ) 


图 2-20 某 时 刻 QQ 同时 在 线 人 数 图 2-21 3D 世界 的 信息 可 视 化 


使 用 增强 的 三 维 技术 的 解决 方案 ,诸如 概览 地标、 远 距 传 物 、 多 视图 和 有 形 用 户 界 
面 ,正在 设法 进入 研究 原型 和 商业 系统 中 。 成 功 的 例子 包括 帮助 医生 计划 手术 的 声波 图 
医学 影像 和 使 购房 者 了 解 建成 的 房屋 看 上 去 将 是 什么 样子 的 建筑 的 走 查 或 飞越 。 三 维 的 
计算 机 图 形 和 计算 机 辅助 设计 工具 的 例子 很 多 ,但 三 维 的 信息 可 视 化 工作 仍 是 有 和 争议 的 。 
一 些 虚拟 环境 研究 人 员 和 商业 图 表 制 作者 已 经 寻求 用 三 维 结构 呈现 信息 ,但 这 些 设计 似 
乎 需要 更 多 的 导航 步骤 且 使 结果 更 难以 解释 。 

除了 1D 线性 数据 ,2D 地 图 数据 和 3D 世界 数据 之 外 .还 有 多 维 数据 、 时 态 数 据 、 树 数 
据 、 网 络 数据 等 数据 类 型 。 


2.6.3 7 个 基本 任务 


分 析 数 据 可 视 化 的 第 二 个 框架 包含 用 户 通 常 执行 的 7 个 基本 任务 。 
(1) 概览 任务 。 用 户 能 够 获得 整个 集合 的 概览 。 概 览 策略 包括 每 个 数据 类 型 的 缩小 
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视图 ,这 种 视图 允许 用 户 查看 整个 集合 ,加 上 邻接 的 细节 视图 。 概 览 可 能 包含 可 移动 的 视 
图 域 框 ,用 户 用 它 来 控制 细节 视图 的 内 容 ,允许 缩放 因子 在 3 一 30 之 间 。 重 复 有 中 间 视 图 
的 这 种 策略 使 用 户 能 够 达到 更 大 的 缩放 因子 。 另 一 种 流行 的 方法 是 鱼 眼 策略 ,其 变形 放 
大 一 个 或 更 多 的 显示 区 域 , 但 几何 缩放 因子 必须 被 限制 在 5 左右 ,或 针对 可 使 用 的 上 下 文 
必须 使 用 不 同 的 表示 等 级 。 因 为 大 多 数 查询 语言 工具 都 使 集合 概览 的 获取 很 困难 ,所 以 
适当 概览 策略 的 规定 是 评价 此 类 界面 的 有 用 标准 。 

(2) 缩放 任务 。 用 户 能 够 在 感 兴趣 的 条 目 上 放大 。 用 户 通常 对 集合 的 某 部 分 感 兴 
趣 , 他 们 需要 工具 使 他 们 能 够 控制 缩放 焦点 和 缩放 因子 。 平 滑 的 缩放 有 助 于 用 户 保持 他 
们 的 位 置 感 和 上 下 文 。 用 户 能 够 通过 移动 缩放 条 控件 或 通过 调整 视图 域 框 的 大 小 一 次 在 
一 个 维度 上 缩放 。 令 人 满意 的 放大 方式 ,是 先 指向 一 个 位 置 ,然后 发 布 一 个 缩放 命令 ,jl 
常 是 通过 按 下 鼠标 按键 来 实现 。 缩 放 在 针对 小 显示 器 的 应 用 程序 中 特别 重要 。 

(3) 过 滤 任 务 。 用 户 能 够 滤 掉 不 感 兴趣 的 条 目 。 应 用 于 集合 中 条 目的 动态 查询 构成 
信息 可 视 化 的 关键 思想 之 一 。 当 用 户 控制 显示 的 内 容 时 ,他 们 能 够 通过 去 除 不 想 要 的 条 
目 而 快速 集中 他 们 的 兴趣 。 通 过 滑 块 或 按钮 能 快速 执行 显示 更 新 ,允许 用 户 跨 显示 器 动 
态 突 出 显示 感 兴趣 的 条 目 。 

(4) 按 需 细 化 任务 。 用 户 能 够 选择 一 个 条 目 或 一 个 组 来 获得 细节 。 一 旦 集合 被 修剪 
到 只 有 几 十 个 条 目 ,浏览 该 组 或 单个 条 目的 细节 就 应 该 是 容易 的 。 通 常 的 方法 是 仅 在 条 
目 上 单 击 , 然 后 在 单独 或 弹出 的 窗口 中 查看 细节 。 按 需 细 化 窗口 可 能 包含 更 多 信息 的 
链接 。 

(5) 关联 任务 。 用 户 能 够 关联 集合 内 的 条 目 或 组 。 与 文本 显示 相 比 ,视觉 显示 的 吸 
引力 在 于 它们 利用 人 类 处 理 视觉 信息 的 非凡 感知 能 力 。 在 视觉 显示 之 内 ,有 机 会 按 接近 
性 ,包容 性 、 连 线 或 颜色 编码 来 显示 关系 。 突 出 显示 技术 能 够 被 用 于 引起 对 有 数 千 条 目的 
域 中 某 些 条 目的 注意 。 指 向 视觉 显示 能 够 允许 快速 选择 , 且 反 馈 是 明显 的 。 当 用 户 在 视 
觉 显示 上 执行 动作 时 , 眼 . 手 、 脑 似乎 流畅 ,快速 地 工作 。 然 而 ,设计 用 于 确定 哪个 关系 是 
显而易见 的 这 样 的 用 户 界面 动作 仍 是 一 个 挑战 。 用 户 也 许 还 想 把 多 种 可 视 化 技术 结合 在 
一 起 ,这 些 技术 是 紧 耦 合 的 ,以 至 于 一 个 视图 中 的 动作 会 触发 其 他 所 有 耦合 视图 中 的 立即 
改变 。 工 具 正在 被 开发 以 允许 用 户 确定 他 们 需要 什么 可 视 化 技术 和 如 何 控制 可 视 化 技术 
之 间 的 交互 。 

(6) 历史 任务 。 用 户 能 够 保存 动作 历史 以 支持 撤销 .回放 和 逐步 细 化 。 单 个 用 户 动 
作 产生 想得到 结果 的 情况 是 军 有 的 。 信 息 探 索 本 来 就 是 一 个 有 很 多 步骤 的 过 程 , 所 以 保 
存 动作 的 历史 并 允许 用 户 追 溯 他 们 的 步骤 是 重要 的 。 然 而 ,大 多 数 产品 未 适当 处 理 这 种 
需求 。 在 给 信息 检索 系统 建 模 方面 ,设计 人 员 将 做 得 更 好 ,这 种 系统 通常 保留 搜索 序列 ， 
以 便 这 些 搜索 能 够 被 组 合 或 细 化 。 

(7) 提取 任务 。 用 户 能 够 允许 子 集 和 查询 参数 的 提取 。 一旦 用 户 获 得 了 他 们 想 要 的 
条 目 或 条 目 集 合 ,对 他 们 有 用 的 是 ,他 们 能 够 提取 该 集合 并 保存 它 、 通 过 电子 邮件 发 送 它 
或 把 它 插入 统计 或 呈现 的 软件 包 中 。 他 们 可 能 还 想 发 布 那些 数据 ,以 便 其 他 人 用 可 视 化 
工具 的 简化 版 本 来 查看 。 


大 履 曲 导 哗 


2.6.4 ”数据 可 视 化 的 挑战 


按 任 务 分 类 的 数据 类 型 有 助 于 组 织 人 们 对 问题 范围 的 理解 ,但 为 了 创建 成 功 的 工具 ， 
信息 可 视 化 的 研究 人 员 仍 有 很 多 挑战 需要 去 面 对 。 

(1) 导入 和 清理 数据 。 决 定 如 何 组 织 输入 数据 以 获得 期 望 的 结果 , 它 所 需要 的 思考 
和 工作 经 常 比 预期 的 多 。 使 数据 有 正确 的 格式 、 滤 掉 不 正确 的 条 目 、 使 属性 值 规格 化 和 处 
理 丢 失 的 数据 也 是 繁重 的 任务 。 

(2) 把 视觉 表示 与 文本 标签 结合 在 一 起 。 视 觉 表 示 是 强 有 力 的 ,但 有 意义 的 文本 标 
签 起 到 很 重要 的 作用 。 标 签 应 该 是 可 见 的 ,不 应 遮盖 显示 或 使 用 户 困惑 。 屏 幕 提 示 和 偏 
心 标签 等 用 户 控制 的 方法 经 常 能 够 提供 帮助 。 

(3) 查找 相关 信息 。 经 常 需要 多 个 信息 源 来 做 出 有 意义 的 判断 。 专 利 律师 想 要 看 到 
相关 的 专利 、 基 因 组 学 研究 人 员 想 要 看 到 基因 簇 在 细胞 过 程 的 各 个 阶段 如 何 一 致 地 工作 ， 
等 等 。 在 发 现 过 程 中 对 意义 的 追寻 需要 对 丰富 的 相关 信息 源 进 行 快速 访问 ,这 需要 对 来 
自 多 个 源 的 数据 进行 整合 。 

(4) 查看 大 量 数据 。 信 息 可 视 化 的 一 般 挑战 是 处 理 大 量 的 数据 。 很 多 创新 的 原型 仅 
能 处 理 几 千 个 条 目 , 或 者 当 处 理 数量 更 大 的 条 目 时 难以 保持 实时 交互 性 。 显 示 数 百 万 条 
目的 动态 可 视 化 证 明 ,信息 可 视 化 尚未 接近 于 达到 人 类 视觉 能 力 的 极限 ,用 户 控制 的 聚合 
机 制 将 进一步 突破 性 能 极限 。 较 大 的 显示 器 能 够 有 帮助 ,因为 额外 的 像素 使 用 户 能 够 看 
到 更 多 的 细节 同时 保持 合理 的 概览 。 

(5) 集成 数据 挖掘 。 信 息 可 视 化 和 数据 挖掘 起 源 于 两 条 独立 的 研究 路 线 。 信 息 可 视 
化 的 研究 人 员 相 信 让 用 户 的 视觉 系统 引导 他 们 形成 假设 的 重要 性 ,而 数据 挖掘 的 研究 人 
员 则 相信 和 能够 依赖 统计 算法 和 机 器 学 习 来 发 现 有 趣 的 模式 。 一 些 消费 者 的 购买 模式 , 诸 
如 商品 选择 之 间 的 相关 性 ,适当 可 视 化 就 会 突显 出 来 。 然 而 ,统计 试验 有 助 于 发 现在 产品 
购买 的 顾客 需要 或 人 口 统计 的 连接 方面 的 更 微妙 趋势 。 研 究 人 员 正 在 逐渐 把 这 两 种 方法 
结合 在 一 起 。 就 其 客观 本 性 来 说 ,统计 汇总 是 有 吸引 力 的 ,但 它们 能 够 隐藏 异常 值 或 不 连 
续 性 ( 像 冰点 或 沸点 )。 另 一 方面 ,数据 挖掘 可 能 把 用 户 指 到 数据 的 更 有 趣 部 分 ,然后 它们 
能 够 在 视觉 上 被 检查 。 

(6) 与 分 析 推理 技术 集成 。 为 了 支持 评估 .计划 和 决策 ,视觉 分 析 领 域 强调 信息 可 视 
化 与 分 析 推 理工 具 的 集成 。 业 务 与 智能 分 析 师 使 用 来 自 搜索 和 可 视 化 的 数据 和 洞察 力作 
为 支持 或 否认 有 竞争 性 的 假设 的 证 据 。 他 们 还 需要 工具 来 快速 产生 他 们 分 析 的 概要 和 与 
决策 者 交流 他 们 的 推理 ,决策 者 可 能 需要 追溯 证 据 的 起 源 。 

(7) 与 他 人 协同 。 发 现 是 一 个 复杂 的 过 程 , 它 依赖 于 知道 要 寻找 什么 .通过 与 他 人 协 
同 来 验证 假设 、 注 意 异常 和 使 其 他 人 相信 发 现 的 意义 。 因 为 对 社交 过 程 的 支持 对 信息 可 
视 化 是 至 关 重 要 的 ,所 以 软件 工具 应 该 使 记录 当前 状态 、 带 注释 和 数据 把 它 发 送 给 同事 或 
张贴 到 网 站 上 更 容易 。 

(8) 实现 普遍 可 用 性 。 当 可 视 化 工具 打算 被 公众 使 用 时 ,必须 使 该 工具 可 被 多 种 多 
样 的 用 户 使 用 而 不 管 他 们 的 生活 背景 工作 背景 .学习 背 景 或 技术 背景 如 何 , 但 它 仍 是 对 
设计 人 员 的 巨大 挑战 。 
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(9) 评估。 信息 可 视 化 系统 是 十 分 复杂 的 。 分 析 很 少 是 一 个 孤立 的 短期 过 程 ,用 户 
可 能 需要 长 期 地 从 不 同 视角 查看 相同 的 数据 。 他 们 或 许 还 能 曾 述 和 回答 他 们 在 查看 可 视 
化 之 前 未 预料 会 有 的 问题 (使 得 难以 使 用 典型 的 实证 研究 技术 ) ,而 受 试 者 被 征 募 来 短期 
从 事 所 承担 的 任务 。 昌 然 最 后 发 现 能 够 产生 巨大 的 影响 ,但 它们 极 少 发 生 且 不 太 可 能 在 
研究 过 程 中 被 观察 到 。 基 于 洞察 力 的 研究 是 第 一 步 。 案 例 研究 报告 在 其 自然 环境 中 完成 
真实 任务 的 用 户 。 他 们 能 够 描述 发 现 、 用 户 之 间 的 协同 数据 清理 的 挫折 和 数据 探索 的 兴 
奋 , 并 且 他 们 能 报告 使 用 频率 和 获得 的 收益 。 案 例 研 究 的 不 足 是 ,它们 非常 耗费 时 间 且 可 
能 不 是 可 重复 的 或 可 应 用 于 其 他 领域 。 


【延伸 阅读 】 


叹 柱 人 们 几何 谈论 互联 网 思 准 


时 下 ,互联 网 思维 " 正 碍 硼 烈 烈 地 颠覆 着 各 行 各 业 的 传统 生态 。 事 实 上 , 早 在 1994 
年 ,互联 网 时 代 的 多 数 境况 就 在 凯 文 .凯利 (图 2-22) 的 书 人 《新 经 济 ,新 规则 》 中 被 预测 过 。 
有 人 形容 这 是 一 本 “值得 每 年 一 看 的 书 ”。Esquire 摘 取 了 书 中 每 一 章 的 要 义 , 邀 你 一 起 看 
看 近 二 十 年 互联 网 思维 的 十 大 法 则 。 


图 2-22 凯 文 * 凯利 (Kevin Kelly) 


法 则 一 : 相信 和 集群 的 力量 。 

网 络 经 济 依赖 的 是 简易 信息 连接 成 集群 时 所 产生 的 伟大 力量 。 

单一 功能 的 元 件 , 以 适合 的 方式 连接 起 来 ,会 产生 奇妙 的 效果 。 

法 则 二 : 回报 递增 : 赢家 与 赢家 相连 。 

工业 经 济 的 规模 效应 对 经 济 来 说 是 线性 的 ,投入 低 、 产 出 低 , 投 入 高 , 产 出 也 高 ;并 且 ， 
在 工业 经 济 中 ,成 功 往 往 会 自我 设 限 ,遵循 回报 递减 的 原理 。 在 网 络 经 济 中 ,成 功 是 自我 
增强 的 ,新 加 入 的 成 员 会 提升 网 络 本 身 的 价值 ,而 网 络 自身 价值 的 升 高 又 反 过 来 吸引 更 多 
的 成 员 , 从 而 形成 了 一 条 优势 的 螺旋 曲线 。 互 联网 经 济 的 价值 是 指数 级 别 的 增长 ,小 投入 
与 小 投入 之 间 相 互 增 强 , 效 益 和 效益 之 间 像 滚雪球 一 样 越 滚 越 大 。 更 确切 地 说 ,网 络 价值 
随 着 成 员 关 系 的 激增 而 成 倍增 加 。 许 多 网 络 代 理 商 和 竞争 者 在 一 起 共同 创造 了 网 络 的 价 
值 。 尽 管 回报 递增 所 产生 的 利益 会 有 相当 一 部 分 由 某 一 组 织 占 有 ,但 利益 的 价值 却 是 存 


为 敬 扎 局 后 


在 于 更 大 范围 的 网 络 之 中 。 

硅谷 的 发 展 与 成 长 就 是 典型 的 例子 。 像 硅谷 一 样 的 高 新 技术 园区 本 身 就 是 人 才 、 资 
源 和 机 会 紧密 联系 的 网 络 。 它 的 成 功 不 是 其 中 一 家 公司 的 成 功 , 而 是 整个 关系 网 络 的 成 
功 。 一 些 技 术 人 才 调 侃 说 ,自己 在 硅谷 虽然 频频 跳槽 ,身边 拼车 的 小 伙伴 却 一 次 也 没 换 
过 。 也 有 人 说 ,他 们 一 早 醒 来 ,第 一 个 想到 的 不 是 “我 为 某 家 公司 卖命 ", 而 是 “我 为 整个 硅 
谷 工作 ”。 

法 则 三 : 普及 效应 。 

在 网 络 里 ,把 握 的 机 会 越 多 ,新 的 机 会 就 能 越 快 地 出 现 。 普 及 效应 的 概念 就 是 要 创造 
由 某 种 由 尽 可 能 多 的 系统 和 标准 来 管理 它 的 事物 。 一 个 事物 接触 的 网 越 多 , 它 的 价值 就 
越 高 。 无 论 是 一 个 发 明 , 一 家 公司 或 者 一 项 技术 , 随 着 它 参 与 的 系统 数量 呈 线 性 增加 , 它 
的 价值 呈 指 数 增加 。 

举 一 个 传统 的 例子 : 第 一 台电 报 机 的 发 明 哪 怕 耗 费 几 百 万 美金 ,也 是 不 值钱 的 。 但 
第 二 台 一 旦 卖 出 ,就 意味 着 一 个 信息 网 络 的 构建 。 随 着 电报 机 进入 千家 万 户 , 你 只 要 花 一 
台电 报 机 的 钱 , 就 可 以 融入 千 千 万 万 台电 报 机 所 建构 的 网 络 关 系 之 中 ,这 就 是 网 络 普及 效 
应 的 价值 所 在 。 

法 则 四 : 追随 免费 之 道 。 

网 络 经 济 遵 循 一 个 悖 论 : 最 好 的 东西 越 来 越 便宜 。 其 中 的 道理 很 简单 : 只 要 消费 者 
订 制 的 基本 服务 趋 近 免 费 , 他 们 很 快 会 订 制 附加 服务 和 高 端 服务 。 

你 可 以 想象 下 面 的 过 程 : 普通 电话 业务 几乎 不 要 钱 。 那 么 ,消费 者 的 每 个 房间 都 会 
安装 电话 线 。 然 后 ,你 的 汽车 也 会 安装 电话 线 , 接 着 使 用 移动 电话 ,再 然后 ,你 的 每 个 家 人 
都 会 使 用 移动 电话 。 然 后 ,消费 者 又 会 订 制 接听 电话 服务 .电话 转 接 .呼叫 等 待 .来 电 显 
示 、 传 真 和 调制 解 调 器 。 接 下 来 ,所 有 的 电器 和 其 他 物体 都 会 联网 …… 总 之 ,“ 唯 有 慷慨 才 
能 在 网 络 中 胜出 。” 

法 则 五 : 要 想 自身 繁荣 . 先 培育 自身 所 在 的 网 络 。 

这 个 法 则 可 以 分 为 如 下 几 个 部 分 。 

(1) 网 络 价值 最 大 化 : 令 多 元 主体 平等 参与 网 络 ;不 要 执着 于 你 认为 的 最 优 标准 ,而 
采用 其 他 人 的 标准 来 发 挥 网 络 效 应 的 杠杆 作用 。 

(2) 激活 你 的 产品 和 服务 : 无 论 什 么 时 候 做 科技 决策 ,如 果 你 选择 更 多 的 连接 、 更 开 
放 的 系统 、 应 用 更 广 的 标准 ,那么 你 总 是 正确 的 。 

(3) 寻找 最 大 公约 数 : 最 有 价值 的 发 明 不 是 性 能 最 优越 的 ,而 是 那些 在 最 广泛 客户 
基础 上 性 能 最 优越 的 (性 能 与 普及 兼 优 ) 。 

(4) 利用 好 那些 根深 蒂 固 的 标准 。 在 一 些 伟大 的 故事 中 ,公司 的 向 前 发 展 都 是 先 掌 
握 一 个 网 络 , 然 后 利用 它 根 深 蒂 固 的 标准 来 改造 一 个 已 经 存在 的 网 络 。 这 个 过 程 被 称 为 
“内 部 转化 ”。 

(5) 重视 推广 传播 ,在 产品 推广 初期 不 要 忽视 推广 人 员 的 作用 。 

法 则 六 : 激流 勇 退 或 寻找 另 一 个 山峰 。 

经 济 学 家 迈克 尔 。 波 特 (Michael Porter) 调 查 了 10 个 国家 的 100 个 行业 后 发 现 创新 
的 源泉 通常 都 来 自 于 “局 外 人 ”或 其 他 相对 局 外 人 一 一 一 个 行业 的 龙头 公司 进入 另 一 个 新 
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的 行业 。 

在 新 经 济 中 ,外 面 的 风景 显得 更 为 重要 ,因为 完美 不 再 是 独奏 表演 。 成 功 是 一 个 相互 
依赖 的 过 程 ,包括 一 个 由 供应 商 、 顾 客 、 其 至 竞争 对 手 组 成 的 网 络 。 

在 山顶 退回 并 不 是 反对 完美 ,而 是 反对 短视 。 

(作者 还 警告 说 ,这 山头 望 向 那 山头 ,看 起 来 很 近 , 实 际 距离 却 很 远 , 有 可 能 需要 经 历 
难以 想象 的 低谷 。) 

法 则 七 : 创立 中 间 市 场 。 

费 默 的 管理 大 师 汤姆 。 彼 得 斯 常 说 ,美国 CEO 时 刻 面临 着 “ 八 分 之 一 秒 的 恒 梦 ”; 
“ 想 想 亚洲 ,拉美 、 东 欧 吧 ! 那里 的 人 聪明 、 反 应 快 . 又 廉价 ,而 且 他 们 离 你 这 么 近 , 只 需 八 
分 之 一 秒 就 能 联系 上 !? 八 分 之 一 秒 是 任何 信号 从 地 球 一 端 抵达 另 一 端 所 需 的 最 长 时 间 。 
这 个 玩笑 实际 上 在 说 ,距离 已 成 为 伪 命 题 , 全 球 化 趋势 势 在 必 行 。 

随 着 电子 环境 的 不 断 延展 ,地 域 的 影响 力 减弱 ,空间 的 影响 力 增加 。 经 济 渗透 进 各 个 
网 络 媒介 ,传统 的 交易 市 场 转换 成 为 概念 性 的 虚拟 市 场 。 这 种 市 场 依托 赛 博 空 间 存 在 , 它 
的 优势 不 在 于 非 地 理 的 虚拟 性 ,而 是 更 多 地 根植 于 它们 无 限 地 吸纳 连接 与 关系 的 能 力 。 
网 络 经 济 推动 了 中 间 市 场 的 形成 。 网 络 中 成 员 之 间 连 接 越 多 ,可 成 为 中 介 的 节点 就 越 多 。 
网 络 中 的 任何 对 象 都 充当 了 其 他 对 象 的 中 介 。 在 中 间 市 场 中 ,海量 的 信息 被 筛选 ,分 类 、 
索引 。 

法 则 八 : 在 失衡 中 寻找 持续 性 。 

改变 意 为 快速 的 变化 ,尽管 有 时 候 是 惊人 的 。 流 变更 像 是 印度 教 中 的 湿 婆 神 , 它 是 一 
股 充满 破坏 与 新 生 的 力量 。 流 变 推翻 婚 有 事物 ,为 更 多 创新 的 诞生 提供 温床 。 这 种 动态 
或 许 会 被 看 作 复合 再 生 , 它 源 于 混乱 的 边缘 。 

同 流 变 的 道理 一 样 ,创新 也 是 一 种 颠覆 ,永恒 的 创新 即 持续 的 颠 履 。 运 转 良好 的 网 络 
希望 达到 一 个 目标 , 那 就 是 保持 永恒 的 失衡 状态 。 

真正 的 创新 要 足够 与 众 不同 , 同 时 具有 危险 性 。 它 可 能 差 一 点 儿 就 被 视 为 荒唐 事 。 
它 在 灾难 的 边缘 ,但 从 不 会 越界 。 它 可 以 以 任何 形态 呈现 ,但 唯 独 不 会 是 和 谐 的 。 

在 创新 的 时 候 要 遵循 一 条 法 则 : 保留 核心 价值 ,让 其 他 部 分 随时 处 于 变动 状态 。 

法 则 九 : (对 话 ) 关 系 比 产能 更 重要 。 

互联 网 经 济 的 核心 是 增进 联系 。 不 应 将 技术 视 为 管理 信息 ,而 应 当 将 其 视 为 关系 的 
中 介 。 现 在 ,生产 者 和 消费 者 的 角色 是 重合 的 ,所 以 有 了 产销 (Prosuming) 这 个 词 。 客 户 
正在 变 成 用 户 , 购 买 你 产品 和 服务 的 同时 也 在 为 它们 的 改进 做 贡献 。 

对 话 是 个 理解 网 络 经 济 不 错 的 模型 。 这 种 你 来 我 往 首先 始 于 两 个 人 ,之 后 扩展 到 其 
他 人 , 随 着 对 话 变 得 愈加 多 元 和 多 样 , 它 就 会 吸引 越 来 越 多 的 人 参与 其 中 。 最 终 , 随 着 世 
界 中 越 来 越 多 的 非 生命 造物 被 连接 起 来 (比如 ,组 织 之 间 的 对 话 、 技 术 和 物品 意义 上 的 交 
流 等 ), 对 话 的 次 数 、 时 长 和 频次 也 会 随 着 互动 的 增加 而 增加 。 对 话 这 种 互动 关系 的 基石 
是 信任 。 

法 则 十 : 机 遇 优 于 效率 。 

效率 是 针对 机 器 人 而 言 的 ,但 机 遇 是 为 人 而 准备 的 。 每 个 连接 都 意味 着 一 个 机 遇 ， 如 
果 我 们 把 世界 越 来 越 多 地 连接 到 网 络 的 节点 上 ,我 们 就 相当 于 在 这 个 神奇 的 组 合 游戏 中 
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增添 了 数 十 亿 可 用 的 新 组 件 。 可 能 性 的 数量 会 像 爆 炸 一 样 激增 。 此 外 ,网 络 能 使 已 经 抓 
住 的 机 会 和 已 经 创造 出 的 发 明 加 速 传播 ,这 些 机 会 和 发 明 被 散播 到 网 络 和 地 球 的 每 一 个 
角落 ,引发 出 更 多 建构 于 他 们 之 上 的 新 的 机 遇 。 

技术 永远 无 法 根治 社会 的 弊端 与 不 公 , 技 术 只 能 为 我 们 做 一 件 事 , 就 是 捕捉 更 多 的 机 
遇 。 寻 求 机 遇 、 创 造 更 多 新 的 机 遇 , 比 优化 已 有 的 东西 能 使 你 收获 更 多 。 一 直 以 来 的 商业 
理念 都 是 ,发 现 问 题 ,然后 去 解决 它 。 但 是 ,那些 被 发 现 了 的 问题 通常 都 是 一 些 已 经 停 
止 了 运作 的 存在 ( 壁 如 目标 清晰 但 执行 不 力 , 甚 至 是 “物流 速度 慢 ” 等 琐碎 的 细节 )。 这 
个 时 候 , 耗 费 人 力 和 时 间 去 改善 “平庸 的 不 足 ”, 会 让 你 在 竞争 激烈 的 全 球 舞 台 失 去 立 
足 之 地 。 

资料 来 源 : Kevin Kelly, 编 译 : 杨 奕 ,编辑 : 杜 强 ,部 分 编译 参考 了 《新 经 济 ,新 规则 》, 电 子 工业 出 版 
社 ,2014 


【实验 与 思考 】 
绘制 南 丁 格 尔 极 区 图 


1. 实验 目的 


(1) 熟悉 大 数据 可 视 化 的 基本 概念 和 主要 内 容 ; 

(2) 通过 绘制 南 丁 格 尔 极 区 图 ,尝试 了 解 大 数据 可 视 化 的 设计 与 表现 技术 。 

2. 工具 /准备 工作 

在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 

需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 。 

3. 实验 内 容 与 步骤 

(1) 请 结合 查阅 相关 文献 资料 , 简 述 : 什么 是 数据 可 视 化 ? 数据 可 视 化 系统 的 主要 
目的 是 什么 ? 

答 


会 : 


(2) 请 结合 查阅 相关 文献 资料 , 简 述 : 数据 可 视 化 的 7 个 数据 类 型 是 什么 ? 


第 和 2 这 大 数据 的 可 钢化 


3) 请 结合 查阅 相关 文献 资料 , 简 述 : 数据 可 视 化 的 7 项 基本 任务 是 什么 ? 


答 


南 丁 格 尔 极 区 图 是 数据 统计 类 信息 图 表 中 常见 到 的 一 类 图 表 形 式 , 下 面 来 了 解 这 类 
图 表 的 常见 绘制 方法 。 

【设计 分 析 】 

最 终 的 效果 图 如 图 2-23 所 示 。 


Facebook 


图 2-23 Facebook 极 区 图 


(1) 图 表 中 包括 性 别 、 年 龄 .教育 .收入 等 11 个 分 类 的 对 比 信息 指标 ,每 个 指标 占用 
的 圆周 的 角度 相同 , 即 任 一 指标 的 扇 区 角度 为 (360"/11 一 32.723")。 在 CorelDraw 中 ,其 
表现 为 “角度 相同 ,半径 不 等 的 扇 区 图 ”。 

(2) 在 Gender、Income、Age、Education 4 个 指标 中 ,又 被 分 别 划 成 几 个 不 同 的 区 段 。 
在 CorelDraw 中 ,同一 扇 区 图 中 不 同 的 区 段 由 “角度 相同 ,半径 不 等 的 鹿 区 图 ”依次 释 加 
而 成 。 

【绘图 步骤 】 

此 信息 图 的 绘制 ,主要 应 用 CorelDraw 软件 中 的 “旋转 ”和 “分 层 芭 加 ”两 个 功能 。 
Facebook 极 区 信息 图 在 CorelDraw 中 的 具体 绘制 步骤 如 下 。 

步骤 1: 绘制 定位 圆 环 和 背景 圆 , 以 及 11 等 分 书 形 。 

步骤 2 一 3: 依次 绘制 11 个 指标 对 应 的 不 同 长 度 的 扇 区 图 。 

步骤 4 一 6: 依次 绘制 4 个 指标 中 的 不 同 区 段 的 扇 区 图 (图 2-24) 。 

读者 也 可 尝试 用 自己 熟悉 的 其 他 作 图 软件 工具 绘制 此 图 。 
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图 2-24 绘制 极 区 图 的 步骤 1 一 6 
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4. 实验 总 


5. 实验 评价 (教师 ) 
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大 数据 的 商业 规则 


【导读 案例 】 
大 数据 企业 的 缩影 一 一 谷歌 


谷歌 (Google Inc. ) 创 建 于 1998 年 9 月 ,是 美国 的 一 家 跨国 科技 企业 (图 3-1) ,致力 
于 互联 网 搜索 、 云 计算 .广告 技术 等 领域 ,开发 并 提供 大 量 基 于 互联 网 的 产品 与 服务 ,主要 
利润 来 自 于 AdWords 等 广告 服务 。 

谷歌 由 在 斯 坦 福 大 学 攻读 理工 博士 的 拉 里 。 
佩 奇 和 谢 尔 盖 。 布 林 共 同 创 建 , 因 此 两 人 也 被 称 为 
“Google Guys”。 创 始 之 初 ,Google 官方 的 公司 使 
命 为 “集成 全 球 范围 的 信息 ,使 人 人 涡 可 访问 并 从 
中 受益 ”。 谷 歌 公司 的 总 部 称 为 “Googleplex”, 位 
于 美国 加 州 圣 克拉 拉 县 的 芒 廷 维 尤 。2011 年 4 
月 , 佩 奇 接替 施 密 特 担任 首席 执行 官 。2014 年 5 
月 21 日 ,市 场 研究 公司 明 略 行 公布 ,谷歌 取代 苹果 图 3-1 Google 总 部 
成 为 全 球 最 具 价值 的 商业 品牌 。2015 年 3 月 28 
日 ,谷歌 和 强生 达成 战略 合作 ,联合 开发 能 够 做 外 科 手 术 的 机 器 人 ;10 月 20 日 ,谷歌 表示 
已 向 羽 扇 智 (Mobvoi Inc. ) 展 开 投资 ;12 月 谷歌 位 列 ( 全 球 最 具 创新 力 企业 报告 ) 前 三 名 。 

谷歌 搜索 引擎 就 是 大 数据 的 缩影 ,这 是 一 个 用 来 在 互联 网 上 搜索 信息 的 简单 快捷 的 
工具 ,使 用 户 能 够 访问 一 个 包含 超过 80 亿 个 网 址 的 索引 。 谷 歌 坚持 不 懈 地 对 其 搜索 功能 
进行 革新 ,始终 保持 着 自己 在 搜索 领域 的 领先 地 位 。 据 调查 结果 显示 , 仅 一 个 月 内 ,谷歌 
处 理 的 搜索 请 求 就 会 高 达 122 亿 次 。 

除了 存储 搜索 结果 中 出 现 的 网 站 链接 外 ,谷歌 还 存储 人 们 的 所 有 搜索 行为 ,这 就 使 谷 
歌 能 以 惊人 的 洞察 力 掌握 搜索 行为 的 时 间 、 内 容 以 及 它们 是 如 何 进行 的 。 这 些 对 数据 的 
洞察 力 意味 着 谷歌 可 以 优化 其 广告 ,使 之 从 网 络 流量 中 获 益 ,这 是 其 他 公司 所 不 能 企及 
的 。 另 外 ,谷歌 不 仅 可 以 追踪 人 的 行为 ,还 可 以 预测 人 们 接 下 来 会 采取 怎样 的 行动 。 换 名 
话说 ,在 你 行动 之 前 ,谷歌 就 已 经 知道 你 在 寻找 什么 了 。 这 种 对 大 量 的 人 机 数据 进行 捕 
提 、 存 储 和 分 析 , 并 根据 这 些 数据 做 出 预测 的 能 力 , 就 是 我 们 所 说 的 大 数据 。 

阅读 上 文 , 请 思考 、 分 析 并 简单 记录 。 

(1) 谷歌 是 一 家 国际 化 的 重要 的 大 数据 企业 。 请 通过 网 络 搜索 ,了 解 谷歌 企业 开展 
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的 重要 技术 和 业务 ,并 请 扼要 记录 。 
答 : 


(2) 在 谷歌 琳琅 满目 的 先进 技术 中 ,你 特别 感 兴趣 的 有 哪些 ? 
答 : 


(3) 除了 谷歌 ,你 还 知道 哪些 重量 级 的 国际 化 大 数据 企业 ? 
答 : 


(4) 请 简单 描述 你 所 知道 的 上 一 周 内 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
答 : 


31 大 数据 的 跨 界 年 度 


《纽约 时 报 》 把 2012 年 称 为 “大 数据 的 跨 界 年 度 "。 大 数据 之 所 以 会 在 2012 年 进入 主 
流 大 众 的 视野 , 缘 于 三 种 趋势 的 合力 。 

第 一 ,许多 高 端 消费 公司 加 大 了 对 大 数据 的 应 用 。 

社交 网 络 巨 壁 Facebook 使 用 大 数据 来 追踪 用 户 。 通 过 识别 你 熟悉 的 其 他 人 ， 
Facebook 可 以 给 出 好 友 推 荐 建议 。 用 户 的 好 友 数 目 越 多 ,他 与 Facebook 的 黏度 就 越 高。 
好 友 越 多 同时 也 就 意味 着 用 户 分 享 的 照片 越 多 ,发布 的 状态 更 新 越 频繁 、. 玩 的 游戏 也 越 多 
样 化 。 

商业 社交 网 站 领 英 (LinkedIn)? 则 使 用 大 数据 为 求职 者 和 招聘 单位 之 间 建 立 关联 。 


中” 领 英 (LinkedIn) 创 建 于 2002 年 ,2003 年 5 月 5 日 网 站 正式 上 线 。 总 部 坐落 于 美国 加 州 硅谷 , 领 英 公司 在 全 
球 27 个 城市 设立 了 分 部 及 办 事 处 。 领 英 致 力 于 向 全 球 职场 人 士 提 供 沟 通 平台 ,并 协助 他 们 事半功倍 ,发 挥 所 长 。 作 
为 全 球 最 大 的 职业 社交 网 站 , 领 英 会 员 人 数 在 世界 范围 内 已 超过 3 亿 , 每 个 (财富 ) 世 界 500 强 公司 均 有 高 管 加 入 ,其 
更 长 远 的 愿景 则 是 为 全 球 33 亿 劳动 力 创造 商业 机 会 ,进而 创建 世界 首 个 经 济 图 谱 - 
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有 了 领 英 , 猫 头 公 司 就 不 再 需要 对 潜在 雇员 进行 意向 访问 。 只 需 一 个 简单 的 搜索 ,他 们 就 
可 以 找到 潜在 雇员 ,并 与 他 们 进行 联系 。 同 样 ,求职 者 也 可 以 通过 联系 网 站 上 的 其 他 人 ， 
将 自己 推销 给 潜在 的 负责 招聘 的 经 理 。 领 英 的 首席 执行 官 杰 夫 “。 韦 纳 曾 谈 到 该 网 站 的 未 
来 发 展 及 其 经 济 图 表 一 一 一 个 能 实时 识别 “经 济 机 会 趋势 ”的 全 球 经 济 数 字 图 表 。 实 现 该 
图 表 及 其 预测 能 力 时 所 面临 的 挑战 就 是 一 个 大 数据 问题 。 

第 二 ,Facebook 与 领 英两 家 公司 都 是 在 2012 年 上 市 的 。 

Facebook 在 纳 斯 达 克 上 市 , 领 英 在 纽约 证 券 交 易 所 上 市 。 从 表面 上 来 看 ,谷歌 和 这 
两 家 公司 都 是 消费 品 公司 ,而 实质 上 ,它们 是 名 副 其 实 的 大 数据 企业 。 除 了 这 两 家 公司 以 
外 ,Splunk 公司 (一 家 为 大 中 型 企业 提供 运营 智能 的 大 数据 企业 ) 也 在 2012 年 完成 了 上 
市 。 这 些 企业 的 公开 上 市 使 华尔街 对 大 数据 业务 的 兴趣 日 渐 浓厚 。 

因此 ,硅谷 的 风险 投资 家 们 开始 前 赴 后 继 地 为 大 数据 企业 提供 资金 ,硅谷 甚至 有 望 在 
未 来 几 年 取代 华尔街 。 作 为 Facebook 的 早期 投资 者 ,Accel Partners 投资 机 构 在 2011 年 
年 末 宣 布 为 大 数据 提供 一 亿美 元 的 投资 ,2012 年 年 初 ,Accel Partners 支出 了 第 一 笔 投 
资 。 著 名 的 风险 投资 公司 安德森 。 霍 洛 维 茨 .Greylock 公司 也 针对 这 一 领域 进行 了 大 量 
的 投资 。 

第 三 ,商业 用 户 , 例 如 亚马逊 Facebook 、 领 英和 其 他 以 数据 为 核心 的 消费 产品 ,也 开 
始 期 待 以 一 种 同样 便捷 的 方式 来 获得 大 数据 的 使 用 体验 。 

既然 互联 网 零售 商 亚 马 逊 可 以 为 用 户 推荐 一 些 阅读 书目 .电影 和 产品 ,为 什么 这 些 产 
品 所 在 的 企业 却 做 不 到 呢 ? 比如 ,为 什么 汽车 租赁 公司 不 能 明智 地 决定 将 哪 一 辆 车 提供 
给 租车 人 呢 ? 毕竟 ,该 公司 拥有 客户 的 租车 历史 和 现 有 可 用 车 辆 库存 记录 。 随 着 新 技术 
的 出 现 ,公司 不 仅 能 够 了 解 到 特定 市 场 的 公开 信息 ,还 能 了 解 到 有 关 会 议 、 重 大 事项 及 其 
他 可 能 会 影响 市 场 需求 的 信息 。 通 过 将 内 部 供应 链 与 外 部 市 场 数据 相 结合 ,公司 可 以 更 
加 精确 地 预测 出 可 用 的 车 辆 类 型 和 可 用 时 间 。 

类 似 地 ,通过 将 这 些 内 部 数据 和 外 部 数据 相 结 合 , 零 售 商 每 天 都 可 以 利用 这 种 混合 式 
数据 确定 产品 价格 和 摆 放 位 置 。 通 过 考虑 从 产品 供应 到 消费 者 的 购物 习惯 这 一 系列 事件 
的 数据 (包括 哪 种 产品 卖 得 比较 好 ) ,零售 商 就 可 以 提升 消费 者 的 平均 购买 量 , 从 而 获得 更 
高 的 利润 。 


32 谷歌 的 大 数据 行动 


谷歌 的 规模 使 其 得 以 实施 一 系列 大 数据 方法 ,而 这 些 方法 是 大 多 数 企业 根本 不 曾 具 
备 的 。 谷 歌 的 优势 之 一 是 其 拥有 一 支 软件 工程 师 队 伍 , 这 些 工 程 师 能 为 该 公司 提供 前 所 
未 有 的 大 数据 技术 。 多 年 来 ,谷歌 还 不 得 不 处 理 大 量 的 非 结 构 化 数据 ,例如 网 页 图片 等 ， 
它 不 同 于 传统 的 结构 化 数据 ,例如 写 有 姓名 和 地 址 的 表格 。 

谷歌 的 另 一 个 优势 是 它 的 基础 设施 (图 3-2)。 就 谷歌 搜索 引擎 本 身 的 设计 而 言 , 数 
不 胜 数 的 服务 器 保证 了 谷歌 搜索 引擎 之 间 的 无 缝 连接。 如 果 出 现 更 多 的 处 理 或 存储 信息 
需求 ,抑或 某 台 服务 器 崩溃 时 ,谷歌 的 工程 师 们 只 需 添加 服务 器 就 能 保证 搜索 引擎 的 正常 
运行 。 据 估计 ,谷歌 的 服务 器 总 数 超过 100 万 个 。 


图 3-2 ”谷歌 的 机 房 


谷歌 在 设计 软件 的 时 候 一 直 没 有 忘记 自己 所 拥有 的 强大 的 基础 设施 。MapReduce 
和 Google File System 就 是 两 个 典型 的 例子 。《 连 线 ) 杂 志 在 2012 年 暑期 的 报道 称 ,这 两 
种 技术 “ 重 塑 了 谷歌 建立 搜索 索引 的 方式 ”。 

许多 公司 现在 都 开始 接受 Hadoop 开源 代码 一 一 MapReduce 和 Google File System 
开发 的 一 个 开源 衍生 产品 。Hadoop 能 够 在 多 台 计 算 机 上 实施 分 布 式 大 数据 处 理 。 当 其 
他 公司 刚刚 开始 利用 Hadoop 开源 代码 时 ,谷歌 在 多 年 前 就 已 经 开始 大 数据 技术 的 应 用 
了 。 事 实 上 , 当 其 他 公司 开始 接受 Hadoop 开源 代码 时 ,谷歌 已 经 将 重点 转移 到 其 他 新 技 
术 上 了 ,这 在 同行 中 占据 了 绝对 优势 。 这 些 新 技术 包括 内 容 索 引 系统 Caffeine、 映 射 关系 
系统 Pregel 以 及 量化 数据 查询 系统 Dremel。 

如 今 , 谷 歌 正 在 进一步 开放 数据 处 理 领 域 , 并 将 其 和 更 多 第 三 方 共享 ,例如 , 它 最 近 刚 
刚 推 出 的 BigQuery 服务 。 该 项 服务 允许 使 用 者 对 超大 量 数据 集 进行 交互 式 分 析 , 其 中 
“超大 量 ? 意 味 着 数 十 亿 行 的 数据 。BigQuery 就 是 基于 云 的 数据 分 析 需 求 。 此 前 ,许多 第 

: 方 企业 只 能 通过 购买 昂贵 的 安装 软件 来 建立 自己 的 基础 设施 ,才能 进行 大 数据 分 析 。 

随 着 BigQuery 这 一 类 服务 的 推出 ,企业 可 以 对 大 型 数据 集 进行 分 析 , 而 无 须 巨 大 的 前 期 
投资 。 

除 此 以 外 ,谷歌 还 拥有 大 量 的 机 器 数据 ,这 些 数据 是 人 们 在 谷歌 网 站 进行 搜索 及 经 过 
其 网 络 时 所 产生 的 。 每 当 用 户 输入 一 个 搜索 请 求 时 ,谷歌 就 会 知道 他 在 寻找 什么 ,所 有 人 
类 在 互联 网 上 的 行为 都 会 留 下 “足迹 ”, 而 谷歌 具备 绝 佳 的 技术 对 这 些 “ 足 迹 ” 进 行 捕捉 和 
分 析 。 

不 仅 如 此 , 除 搜索 之 外 ,谷歌 还 有 许多 获取 数据 的 途径 。 企 业 会 安装 “谷歌 分 析 ” 
(Google Analytics) 之 类 的 产品 来 追踪 访问 者 在 其 站 点 的 “足迹 ”, 而 谷歌 也 可 获得 这 些 数 
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据 。 利 用 “谷歌 广告 联盟 ”(Google Adsense) ,网 站 还 会 将 来 自 谷歌 广告 客户 网 的 广告 
示 在 其 各 自 的 站 点 上 ,因此 ,谷歌 不 仅 可 以 洞察 自己 网 站 上 广告 的 展示 效果 ,对 其 他 广告 
发 布 站 点 的 展示 效果 也 一 览 无 余 。 

将 所 有 这 些 数 据 集合 在 一 起 ,可 以 看 到 : 企业 不 仅 可 以 从 最 好 的 技术 中 获 益 ,同样 还 
可 以 从 最 好 的 信息 中 获 益 。 在 信息 技术 方面 ,许多 企业 可 谓 耗 资 巨大 ,然而 谷歌 所 进行 的 
庞大 投入 和 所 获得 的 巨大 成 功 , 却 军 有 企业 能 望 其 项 背 。 


33 亚马逊 的 大 数据 行动 


互联 网 零售 商 亚马逊 (Amazon, 图 3-3) 同 时 也 是 一 个 推行 大 数据 的 大 型 技术 公 
已 经 采取 一 些 积极 的 举措 ,很 可 能 成 为 谷歌 数据 驱动 领域 的 最 大 竞争 伙伴 。 pe 
截至 2015 年 ,亚马逊 营 收 将 超过 1000 亿美 
元 ,即将 超过 沃尔玛 ,成 为 世界 最 大 的 零售 商 。 
如 同 谷歌 一 样 ,亚马逊 也 要 处 理 海 量 数 据 , 只 
不 过 它 处 理 的 数据 带 有 更 强 的 电 商 倾向 。 每 
次 , 当 消费 者 们 在 亚马逊 网 站 上 搜索 想 看 的 电 
视 节 目 或 想 买 的 产品 时 ,亚马逊 就 会 增加 对 该 
消费 者 的 了 解 。 基 于 消费 者 的 搜索 行为 和 产 
品 购买 行为 ,亚马逊 就 可 以 知道 接 下 来 应 该 为 NT i 
消费 者 推荐 什么 产品 。 图 3-3 互联 网 零售 商 一 一 亚马逊 

亚马逊 的 聪明 之 处 还 远 不 止 于 此 。 它 会 
在 网 站 上 持续 不 断 地 测试 新 的 设计 方案 .从 而 找 出 转化 率 最 高 的 方案 。 你 认为 亚马逊 网 
站 上 的 某 段 页 面 文字 只 是 碰巧 出 现 的 吗 ? 其 实 ,亚马逊 整个 网 站 的 布局 .字体 大 小 .颜色 、 
按钮 以 及 其 他 所 有 设计 ,都 是 在 经 过 多 次 审慎 测试 后 的 最 优 结果 。 

以 尝试 设计 新 按钮 为 例 , 这 种 测试 的 思路 如 下 : 首先 随机 选择 少量 (例如 5%) 的 用 
户 , 让 他 们 看 到 新 的 按钮 设计 ,如 果 这 部 分 人 的 点 击 率 高 于 对 照 用 户 ,就 逐渐 提高 新 按钮 
覆盖 的 用 户 比例 ,并 测试 其 表现 的 稳定 性 ;在 相当 比例 用 户 中 ,具有 稳定 性 且 更 佳 表现 的 
新 设计 将 会 替代 原 有 的 设计 。 对 于 亚马逊 这 样 的 大 型 企业 ,即便 是 千 分 之 一 的 用 户 ,数量 
也 非常 可 观 。 如 果 他 们 拿 出 10% 的 流量 用 作 测试 , 而 每 个 基础 测试 桶 只 需要 千 分 之 一 的 
用 户 量 ,就 意味 着 亚马逊 时 时 刻 刻 都 可 以 测试 上 百 个 新 算法 和 新 设计 的 效果 。 国 内 阿里 
巴巴 集团 算法 部 门 也 使 用 类 似 的 思路 和 技术 进行 效果 测试 。 

数据 驱动 的 方法 并 不 仅 限 于 以 上 领域 。 根 据 亚马逊 一 位 前 任 员 工 的 说 法 ,亚马逊 的 
企业 文化 就 是 冷冰冰 的 数据 驱动 文化 。 数 据 会 告诉 你 什么 是 有 效 的 .什么 是 无 效 的 ,新 的 
商业 投资 项 目 必 须要 有 数据 支撑 。 

对 数据 的 长 期 关注 使 亚马逊 能 够 以 更 低 的 价格 提供 更 好 的 服务 。 消 费 者 往往 会 直接 
去 亚马逊 网 站 搜索 商品 并 进行 购买 ,谷歌 之 类 的 搜索 引擎 则 完全 被 抛 诸 脑 后 。 争 夺 消 费 
者 控制 权 这 一 战争 的 硝烟 还 在 不 断 弥 漫 。 如 今 ,苹果 亚马逊、 谷歌 以 及 微软 ,这 4 家 公认 
的 巨头 不 仅 在 互联 网 上 进行 所 杀 ,还 将 其 争斗 延伸 至 移动 领域 。 
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随 着 消费 者 把 越 来 越 多 的 时 间 花 费 在 手机 和 平板 电脑 等 移动 设备 上 ,他 们 坐 在 计算 
机 前 的 时 间 已 经 变 得 越 来 越 少 ,因此 ,那些 能 成 功 地 让 消费 者 购买 他 们 的 移动 设备 的 企 
业 , 将 会 在 销售 和 获取 消费 者 行为 信息 方面 具备 更 大 的 优势 。 企 业 和 掌握 的 消费 者 群体 和 
个 体 信息 越 多 , 它 就 越 能 更 好 地 制定 内 容 、 广 告 和 产品 。 

令 人 难以 置信 的 是 ,从 支撑 新 兴 技 术 企 业 的 基础 设施 到 消费 内 容 的 移动 设备 ,亚马逊 
的 触角 已 触及 更 为 广阔 的 领域 。 亚 马 逊 在 几 年 前 就 预见 了 将 作为 电子 商务 平台 基础 结构 
的 服务 器 和 存储 基础 设施 开放 给 其 他 人 的 价值 ,。“ 亚 马 逊 网 络 服务 ”(Amazon Web 
Service,AWS) 是 亚马逊 公司 知名 的 面向 公众 的 云 服务 提供 者 ,能 为 新 兴 企 业 和 老牌 公司 
提供 可 扩展 的 运算 资源 。 虽 然 AWS 成 立 的 时 间 不 长 ,但 有 分 析 者 估计 它 每 年 的 销售 额 
超过 15 亿美 元 。 

这 种 运算 资源 为 企业 开展 大 数据 行动 铺 平 了 道路 。 当 然 ,企业 依然 可 以 继续 投资 建 
立 以 私有 云 为 形式 的 自 有 基础 设施 ,而 且 很 多 企业 还 会 这 样 做 。 但 是 如 果 企 业 想 尽快 利 
用 额外 的 、 可 扩展 的 运算 资源 ,它们 还 可 以 方便 \ 快 捷 地 在 亚马逊 的 公共 云 上 使 用 多 个 服 
务 器 。 如 今 亚马逊 引领 潮流 、 备 受 瞩 目 , 靠 的 不 仅 是 它 自己 的 网 站 和 Kindle Fire 之 类 的 
新 移动 设备 ,支持 着 数 千 个 热门 站 点 的 基础 设施 同样 功 不 可 没 。AWS 带 来 的 结果 是 ,大 
数据 分 析 不 再 需要 企业 在 IT 上 投入 固定 成 本 。 如 今 ,获取 数据 分 析 数 据 都 能 够 在 云端 
简单 .迅速 地 完成 。 换 句 话 说, 如今 ,企业 有 能 力 获取 和 分 析 大 规模 的 数据 一 一 而 在 过 去 ， 
它们 则 会 因为 无 法 存储 而 不 得 不 抛弃 它 。 


34 将 信息 变 成 一 种 竞争 优势 


AWS 类 型 的 服务 与 Hadoop 类 型 的 开源 技术 相 结合 ,意味 着 企业 终于 能 够 尝 到 信息 
技术 在 多 年 以 前 向 世人 所 描绘 的 果实 。 

数 十 年 来 ,人 们 对 所 谓 的 “信息 技术 ”的 关注 一 直 偏 重 于 其 中 的 “技术 ”部 分 ,首席 信息 
官 (CIO) 的 职责 就 是 购买 和 管理 服务 器 ,存储 设备 和 网 络 。 而 如 今 ,信息 以 及 对 信息 的 分 
析 、 存 储 和 预测 的 能 力 , 正 成 为 一 种 竞争 优势 (图 3-4) 。 


信息 
1990 2010 
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3-4 ”大 数据 将 “信息 技术 ”的 焦点 从 “技术 ”转变 为 “信息 ” 
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信息 技术 刚刚 兴起 的 时 候 , 较 早 应 用 信息 技术 的 企业 能 够 更 快 地 发 展 , 超 越 他 人 。 微 
软 公 司 在 20 世纪 90 年 代 就 树立 并 巩固 了 它 的 地 位 ,这 不 仅 得 益 于 它 开发 了 世界 上 应 用 
最 为 广泛 的 操作 系统 ,还 在 于 当时 它 在 公司 内 部 将 电子 邮件 作为 标准 的 沟通 机 制 。 事实 
上 ,在 许多 企业 仍 在 犹 环 是否 采用 电子 邮件 的 时 候 , 电 子 邮件 已 经 成 为 微软 讨论 招聘 、 
产品 决策 市场 战略 等 事务 的 标准 沟通 机 制 。 虽然 群发 电子 邮件 的 交流 在 如 今 已 是 司 
空 见 惯 ,但 在 当时 ,这 样 的 举措 让 微软 较 之 其 他 未 采用 电子 邮件 的 公司 具有 更 多 的 速 
度 和 协作 优势 。 

接受 大 数据 并 在 不 同 的 组 织 之 间 民 主 化 地 使 用 数据 ,将 会 给 企业 带 来 与 之 相似 的 优 
势 。 诸 如 谷歌 和 Facebook 之 类 的 企业 已 经 从 “数据 民主 ”中 获 益 。 

通过 将 内 部 数据 分 析 平 台 开 放 给 所 有 跟 自 己 公司 相关 的 分 析 师 .管理 者 和 执行 者 , 谷 
歌 .Faeebook 以 及 其 他 一 些 公司 已 经 让 组 织 中 的 所 有 成 员 都 能 提出 跟 商 业 有 关 的 数据 问 
题 ,获得 答案 并 迅速 行动 。 正 如 Facebook 的 前 任 大 数据 领导 人 阿 施 什 .图 苏 尔 所 言 ,新 
技术 已 经 将 我 们 的 话题 从 “储存 什么 数据 "转化 到 “我 们 怎样 处 理 更 多 的 数据 ”这 一 话题 
oe 

以 Facebook 为 例 , 它 将 大 数据 推广 成 为 内 部 的 服务 ,这 意味 着 该 服务 不 仅 是 为 工程 
师 设 计 的 ,也 是 为 终端 用 户 , 即 生产 线 管理 人 员 设 计 的 ,他 们 需要 运用 “查询 ”来 找 出 有 效 
的 方案 。 因 此 ,管理 者 们 不 再 需要 花费 几 天 或 是 几 周 的 时 间 , 来 找 出 网 站 的 哪些 改变 最 有 
效 , 或 者 哪些 广告 方式 的 效果 最 好 。 他 们 可 以 使 用 内 部 的 大 数据 服务 ,而 这 些 服 务 本 身 就 
是 为 了 满足 他 们 的 需求 而 设计 的 ,这 使 得 数据 分 析 的 结果 很 容易 在 员工 之 间 共 享 。 

过 去 的 20 年 是 信息 技术 的 时 代 , 接 下 来 的 20 年 的 主题 仍 会 是 信息 技术 。 这 些 企业 
能 够 更 快 地 处 理 数据 ,而 公共 数据 资源 和 内 部 数据 资源 一 体 化 将 带 来 独特 的 视野 ,使 他 们 
能 够 远 远 超越 竞争 对 手 。 正 如 * 大 数据 创新 空间 曲线 ?的 创始 人 和 首席 技术 官 安 德 鲁 。 罗 
杰 斯 所 言 ， 你 分 析 数 据 的 速度 越 快 , 它 的 预测 价值 就 越 大 。 "企业 如 今 正 在 渐渐 远离 批量 
处 理 数据 的 方式 ( 即 先 存储 数据 ,之 后 再 慢 慢 进行 分 析 处 理 ) 而 转向 实时 分 析 数 据 来 获取 
竞争 优势 。 

对 于 高 管 们 而 言 ,好 消息 是 : 来 自 于 大 数据 的 信息 优势 不 再 只 属于 谷歌 .亚马逊 之 类 
的 大 企业 。Hadoop 之 类 的 开源 技术 让 其 他 企业 可 以 拥有 同样 的 优势 无论 是 老牌 财富 
100 强 企业 还 是 新 兴 初 创 公司 ,都 能 够 以 合理 的 价格 利用 大 数据 来 获得 竞争 优势 。 


3.4.1 数据 价格 下 降 ,数据 需求 上 升 


与 以 往 相 比 ,大 数据 带 来 的 颠覆 不 仅 是 可 以 获取 和 分 析 更 多 数据 的 能 力 , 更 重要 的 
是 ,获取 和 分 析 等 量 数 据 的 价格 也 正在 显著 下 降 。 但 是 价格 * 蒸 蒸 日 下 ,需求 却 蒸 蒸 日 
上 。 这 种 略 带 讽刺 的 关系 正如 所 谓 的 * 杰 文 斯 蛋 论 "一样 。 科 技 进 步 使 储存 和 分 析 数 据 


@” 杰 文 斯 悖 论 : 19 世纪 经 济 学 家 杰 文 斯 在 研究 煤炭 的 使 用 效率 时 发 现 , 在 提高 煤 的 使 用 效率 方面 ,原本 以 为 效 
率 的 提高 能 满足 人 们 对 煤 的 需求 ,然而 结果 是 ,效率 越 高 ,消耗 的 煤 就 越 多 ,煤炭 总 量 就 会 更 快 耗竭 ,人 们 的 需求 无 法 
得 到 满足 。 即 技术 进步 可 以 提高 自然 资源 的 利用 效率 ,但 结果 是 增加 而 不 是 减少 这 种 资源 的 需求 ,因为 效率 的 改进 会 
导致 生产 规模 扩大 。 这 就 带 来 了 一 种 技术 进步 、 经 济 发 展 和 环境 保护 之 间 的 矛盾 和 悖 论 。 公众 对 杰 文 斯 迟 论 可 能 比 
较 陌生 ,但 事实 上 ,这 一 悖 论 ,大 到 对 国家 的 发 展 ,小 到 对 普通 民众 的 生活 都 有 影响 。 
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的 方式 变 得 更 有 效率 ,与 此 同时 ,公司 也 将 对 此 做 出 更 多 的 数据 分 析 。 简 而 言 之 ,这 就 是 
为 什么 大 数据 能 够 带 来 商业 上 的 颠覆 性 变化 。 

从 亚马逊 到 谷歌 ,从 IBM 到 惠普 和 微软 ,大 量 的 大 型 技术 公司 纷纷 投身 于 大 数据 ;而 
基于 大 数据 解决 方案 ,更 多 初创 型 企业 如 雨后春笋 般 涌现 ,提供 基于 云 服务 和 开源 的 大 数 
据 解 决 方案 。 

大 公司 致力 于 横向 的 大 数据 解决 方案 ,与 此 同时 ,小 公司 则 以 垂直 行业 的 关键 应 用 为 
重 。 有 些 产品 可 以 优化 销售 效率 ,而 有 些 产品 则 通过 将 不 同 渠道 的 营销 业绩 与 实际 的 产 
品 使 用 数据 相 联系 ,来 为 未 来 营销 活动 提供 建议 。 这 些 大 数据 应 用 程序 意味 着 小 公司 不 
必 在 内 部 开发 或 配备 所 有 大 数据 技术 ;在 大 多 数 情 况 下 ,它们 可 以 利用 基于 云端 的 服务 来 
解决 数据 分 析 需 求 。 


3.4.2 大 数据 应 用 程序 的 兴 


大 数据 应 用 程序 在 大 数据 空间 掀起 了 又 一 轮 波 浪 。 投 资 者 相继 将 大 量 资 金 投 入 到 现 
有 的 基础 设施 中 ,又 为 Hadoop 软件 的 商业 供应 商 Cloudera 等 提供 了 投资 。 与 此 同时 ， 
企业 并 没有 停留 在 大 数据 基础 设施 上 ,而 是 将 重点 转向 了 大 数据 的 应 用 。 

从 历史 上 来 说 ,企业 必须 利用 自主 生成 的 脚本 文件 来 分 析 日 志文 件 (一 种 由 网 络 设 备 
和 IT 系统 中 的 服务 器 生成 的 文件 ) ,相对 而 言 ,这 是 一 种 人 工 处 理 程序 。IT 管理 员 不 仅 
要 维护 服务 器 、 网 络 工作 设备 和 软件 的 基础 设施 ,还 要 建立 自己 的 脚本 工具 ,从 而 确定 因 
这 些 系 统 所 引发 的 问题 的 根源 。 这 些 系 统 会 产生 海量 的 数据 ;每 当 用 户 登录 或 访问 一 个 
文件 时 ,一 旦 软件 出 现 警告 或 显示 错误 ,管理 者 就 需要 对 这 些 数据 进行 处 理 , 他 们 必须 弄 
清楚 究 竞 是 怎么 一 回 事 。 

有 了 大 数据 应 用 程序 之 后 ,企业 不 再 需要 
自己 动手 创建 工具 。 他 们 可 以 利用 预先 设置 
的 应 用 程序 从 而 专注 于 他 们 的 业务 经 营 。 比 
如 ,利用 Splunk 公司 (图 3-5) 的 软件 ,可 以 搜 
索 IT 日 志 , 并 直观 看 到 有 关 登 录 位 置 和 频率 
的 统计 .进而 轻松 地 找到 基础 设施 存在 的 问 
题 。 当 然 ,企业 的 软件 主要 是 安装 类 软件 ,也 

图 3-5 ”Splunk 公司 就 是 说 , 它 必须 安装 在 客户 的 网 站 中 。 基 于 云 

端的 大 数据 应 用 程序 承诺 ,它们 不 会 要 求 企业 

安装 任何 硬件 或 软件 。 在 某 些 方面 ,它们 可 以 被 认为 是 软件 即 服务 (Software as a 

Service,SaaS) 后 的 下 一 个 合乎 逻辑 的 步 又。 软件 即 服务 是 通过 互联 网 向 客户 交付 产品 

的 一 种 新 形式 , 现 已 经 发 展 得 较为 完善 。 十 几 年 前 ,客户 关系 管理 (CRM) 软 件 服务 提供 

商 Salesforce 首先 推出 了 “无 软件 ”的 概念 ,这 一 概念 已 经 成 为 基于 云 计算 的 客户 关系 管 
理 软件 的 事实 标准 ,这 种 软件 会 帮助 企业 管理 他 们 的 客户 列表 和 客户 关系 。 

通过 软件 运营 服务 转化 后 ,软件 可 以 被 随时 随地 地 使 用 :企业 几乎 不 需要 对 软件 进行 
维护 。 大 数据 应 用 程序 把 着 眼 点 放 在 这 些 软件 存储 的 数据 上 ,从 而 改变 了 这 些 软件 公司 
的 性 质 。 换 名 话说 ,大 数据 应 用 程序 具备 将 技术 企业 转化 为 “有 价值 的 信息 企业 ”的 潜力 。 
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例如 ,oPower 公司 可 以 改变 能 量 的 消耗 方式 。 通 过 与 75 家 不 同 的 公用 事业 企业 合 
作 ,该 公司 可 以 追踪 约 5000 万 美国 家 庭 的 能 源 消耗 状况 。 该 公司 利用 智能 电表 设备 (一 
种 追踪 家 庭 能 源 使 用 的 设备 ) 中 储存 的 数据 ,能 为 消费 者 提供 能 源 消 耗 的 具体 报告 。 即 使 
能 源 消 耗 数据 出 现 一 个 小 小 的 变动 ,也 会 对 千家 万 户 造成 很 大 的 影响 。 就 像 谷歌 可 以 根 
据 消 费 者 在 互联 网 上 的 行为 追踪 到 海量 的 数据 一 样 ,oPower 公司 也 拥有 大 量 的 能 源 使 用 
数据 。 这 种 数据 最 终 会 赋予 oPower 公司 以 及 像 oPower 公司 之 类 的 公司 截然 不 同 的 洞 
察 力 。 目 前 ,该 公司 已 经 开始 通过 提供 能 源 报告 来 继续 建立 其 信息 资产 ,这 些 数 据 资源 和 
分 析 产 品 向 我 们 展示 了 未 来 大 数据 商业 的 锥 形 。 

然而 ,大 数据 应 用 程序 不 仅 出 现在 技术 世界 里 。 在 技术 世界 之 外 ,企业 还 在 不 断 研 发 
更 多 的 数据 应 用 程序 ,这 些 程序 将 对 人 们 的 日 常生 活 产生 重大 的 影响 。 举 例 来 说 ,有 些 产 
品 会 追踪 与 健康 相关 的 指标 并 为 人 们 提出 建议 ,从 而 改善 人 类 的 行为 。 这 类 产品 还 能 减 
少 肥胖 、 提 高 生活 质量 、 降 低 医疗 成 本 。 


3.4.3 实时 响应 ,大 数据 用 户 的 新 要 求 


过 去 几 年 ,大 数据 一 直 致 力 于 以 较 低 的 成 本 采集 .存储 和 分 析 数 据 , 而 未 来 几 年 ， 
数据 的 访问 将 会 加 快 。 当 你 在 网 站 上 单 击 按钮 , 却 发 现 跳出 来 的 是 一 个 等 待 画 面 , 而 
你 不 得 不 等 待 交易 的 完成 或 报告 的 生成 ,这 是 一 个 多 么 令 人 泪 表 的 过 程 。 再 来 对 比 一 
下 谷歌 搜索 结果 的 响应 时 间 : 2010 年 ,谷歌 推出 了 Google Instant, 该 产品 可 以 在 输入 
文本 的 同时 就 能 看 到 搜索 结果 。 通 过 引入 该 功能 ,一 个 典型 用 户 在 谷歌 给 出 的 结果 中 
找到 自己 需要 的 页 面 的 时 间 缩 短 为 以 前 的 1/5 一 1/7。 当 这 一 程 字 刚刚 被 引进 时 ,人 们 
还 在 怀疑 是 否 能 够 接受 它 。 如 今 , 短 短 几 年 后 ,人 们 却 难 以 想象 要 是 没有 这 种 程序 生 
活该 怎么 继续 下 去 。 

数据 分 析 师 ,经理 及 行政 人 员 都 希望 能 像 谷 歌 一 样 用 迅捷 的 洞察 力 来 了 解 他 们 的 业 
务 。 随 着 大 数据 用 户 对 便捷 性 提出 的 要 求 越 来 越 高 . 仅 通过 采用 大 数据 技术 已 不 能 满足 
他 们 的 需求 。 持 续 的 竞争 优势 并 非 来 自 于 大 数据 本 身 ,而 是 更 快 的 洞察 信息 的 能 力 。 
Google Instant 这 样 的 程序 就 向 人 们 演示 了 “立即 获得 结果 "的 强大 之 处 。 


3.4.4 企业 构建 大 数据 战略 


据 IBM 称 :“ 我 们 每 天 都 在 创造 大 量 的 数据 ,大 约 是 2. 5X10*B 一 一 仅 在 过 去 两 年 
间 创 造 的 数据 就 占 世 界 数据 总 量 的 90%。” 据 福 雷 斯 特产 业 分 析 研 究 公 司 估计 ,企业 数据 
的 总 量 每 年 以 94%% 的 增长 率 飙 升 。 

在 这 样 的 高 速 增长 之 下 ,每 个 企业 都 需要 一 个 大 数据 路 线 图 ,至 少 ,企业 应 为 获取 数 
据 制 定 一 种 战略 ,获取 范围 应 从 内 部 计算 机 系统 的 常规 机 器 日 志 一 直到 线 上 的 用 户 交互 
记录 。 即 使 企业 当时 并 不 知道 这 些 数据 有 什么 用 :他 们 也 要 这 样 做 ,或 许 随后 他 们 会 突然 
发 现 这 些 数据 的 作用 。 正 如 罗杰斯 所 言 ,“ 数 据 所 创造 的 价值 远 远 高 于 最 初 的 预期 一 一 千 
万 不 要 随便 将 它们 抛弃 ”。 

企业 还 需要 制定 一 个 计划 来 应 对 数据 的 指数 型 增长 。 照 片 、 即 时 信息 以 及 电子 邮件 
的 数量 非常 庞大 ,而 由 手机 .GPS 及 其 他 设备 构成 的 “传感器 ?所 释放 出 的 数据 量 甚至 更 


大 数据 导论 


大 。 在 理想 情况 下 ,企业 应 让 数据 分 析 贯 穿 于 整个 组 织 , 并 尽 可 能 地 做 到 实时 分 析 。 通 过 
观察 谷歌 .亚马逊 、Facebook 和 其 他 科技 主导 企业 ,可 以 看 到 大 数据 之 下 的 种 种 机 会 。 管 
理 者 需要 做 的 就 是 往 自己 所 在 的 组 织 中 注入 大 数据 战略 。 

成 功 运用 大 数据 的 企业 往 大 数据 世界 中 添加 了 一 个 更 为 重要 的 因素 : 大 数据 的 所 有 
者 。 大 数据 的 所 有 者 是 指 首 席 数据 官 (CDO) 或 主管 数据 价值 的 副 总 裁 。 如 果 你 不 了 解 
数据 意味 着 什么 ,世界 上 所 有 的 数据 对 你 来 说 将 毫 无 价值 可 言 。 拥 有 大 数据 所 有 者 不 仅 
能 帮助 企业 进行 正确 的 策略 定位 ,还 可 以 引导 企业 获取 所 需 的 洞察 力 。 

谷歌 和 亚马逊 这 样 的 企业 应 用 大 数据 进行 决策 已 有 多 年 ,它们 在 数据 处 理 上 已 经 取 
得 了 不 少 成 果 。 而 现在 ,你 也 可 以 拥有 同样 的 能 力 。 


35 大 数据 营销 


行 之 有 效 的 大 数据 交流 需要 同时 具备 愿景 和 执行 两 个 方面 。 愿 景 意 味 着 诉说 故事 ， 
让 人 们 从 中 看 到 希望 ,受到 鼓舞 。 执 行 则 是 指 具 体 实 现 的 商业 价值 ,并 提供 数据 支撑 。 

大 数据 还 不 能 (至 少 现在 还 不 能 ) 明 确 产品 的 作用 、 购 买 人 群 以 及 产品 传递 的 价值 。 
因此 ,大 数据 营销 由 三 个 关键 部 分 组 成 : 愿景 ,价值 以 及 执行 。 号称“ 世界 上 最 大 的 书店 ” 
的 亚马逊 ,终极 驾驶 汽车 ”的 宝马 以 及 * 开 发 者 的 好 朋友 ?的 谷歌 ,它们 各 自 都 有 清晰 的 

但 是 单单 愿景 明确 还 不 够 ,公司 还 必须 有 伴随 着 产品 价值 .作用 以 及 具体 购买 人 群 的 
清晰 表述 。 基 于 愿景 和 商业 价值 ,公司 能 讲述 个 性 化 的 品牌 故事 ,吸引 到 它们 大 费 周 折 才 
接触 到 的 顾客 .报道 者 ,博文 作者 以 及 其 他 产业 的 成 员 。 他 们 可 以 创造 有 效 的 博客 、 信 息 
图 表 在线 研讨 会 .案例 研究 .特征 对 比 以 及 其 他 营销 材料 ,从 而 成 功 地 支持 营销 活动 一 一 
既 可 以 帮助 宣传 ,又 可 以 支持 销售 团队 销售 产品 。 和 其 他 形式 的 营销 一 样 ,内 容 也 需要 具 
备 高 度 针 对 性 。 

即使 这 样 ,公司 对 自己 的 产品 有 了 许多 认识 ,但 却 未 能 在 潜在 顾客 登录 其 网 站 时 实现 
有 效 转换 。 通 常 , 公 司 花费 九 牛 二 虎 之 力 增加 了 网 站 的 访问 量 ,结果 到 了 需要 将 潜在 顾客 
转换 为 真正 的 顾客 时 , 却 一 再 出 错 。 网 站 设计 者 可 能 将 按钮 放 在 非 最 佳 位 置 上 ,可 能 为 潜 
在 顾客 提供 了 太 多 可 行 性 选择 ,或 者 建立 的 网 站 缺乏 顾客 所 需 的 信息 。 当 顾客 想 要 下 载 
或 者 购买 公司 的 产品 时 ,就 很 容易 产生 各 种 不 便 。 至 于 大 数据 营销 , 则 与 传统 营销 方式 没 
多 大 关系 ,其 更 注重 创建 一 种 无 障碍 的 对 话 。 通 过 开辟 大 数据 对 话 ,我 们 能 将 大 数据 的 好 
处 带 给 更 为 广泛 的 人 群 。 


3.5.1 像 媒体 公司 一 样 思考 


大 数据 本 身 有 助 于 提升 对 话 。 营 销 人 员 拥 有 网 站 访客 的 分 析 数 据 、 故 障 通知 单 系统 
的 顾客 数据 以 及 实际 产品 的 使 用 数据 ,这 些 数 据 可 以 帮助 他 们 理解 营销 投入 如 何 转 换 为 
顾客 行为 ,并 由 此 建立 良性 循环 。 

随 着 杂志 、 报 纸 以 及 书籍 等 线 下 渠道 广告 投入 持续 下 降 , 在 线 拓展 顾客 的 新 方法 正 不 
断 涌现 。 谷歌 仍然 是 在 线 广 告 行业 的 巨 无 霸 , 在 线 广 告 收 入 约 占 其 总 电子 广告 收入 的 
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41.3%。 同 时 , 如 Facebook、 推 特 以 及 领 英 
(图 3-6) 等 社会 化 媒体 不 仅 代表 了 新 型 营销 渠 
道 ,也 是 新 型 数据 源 。 现 在 ,营销 不 仅 是 指 在 广 
告 上 投入 资金 , 它 意 味 着 每 个 公司 必须 像 一 个 媒 
体 公 司 一 样 思考 .行动 。 它 不 仅 意 味 着 运作 广告 
营销 活动 以 及 优化 搜索 引擎 列表 ,也 包含 开发 内 
容 、 分 布 内 容 以 及 衡量 结果 。 大 数据 应 用 将 源 自 
所 有 渠道 的 数据 汇集 到 一 起 ,经 过 分 析 , 做 出 下 
一 步行 动 的 预测 一 一 帮助 营销 人 员 制 定 更 优 的 
决策 或 者 自动 执行 决策 。 


3.5.2 营销 面 对 新 的 机 遇 与 挑战 


据 产 业 研究 公司 高 德 纳 咨询 公司 称 , 到 2017 年 ,首席 营销 官 (CMO) 花 费 在 信息 技术 
上 的 时 间 将 比 首席 信息 官 (CIO) 还 多 。 营 销 组 织 现在 更 加 倾向 于 自行 制定 技术 决策 ,IT 
部 门 的 参与 也 越 来 越 少 。 越 来 越 多 的 营销 人 员 转 而 使 用 基于 云端 的 产品 以 满足 他 们 的 需 
求 。 这 是 因为 他 们 可 以 多 次 尝试 ,如 果 产 品 不 能 发 挥 效 用 ,就 直接 抛弃 掉 。 

过 去 ,市 场 营销 费用 分 为 以 下 三 类 。 

(1) 跑 市 场 的 人 员 成 本 ; 

(2) 创建 .运营 以 及 衡量 营销 活动 的 成 本 ; 

(3) 开展 这 些 活 动 和 管理 所 需 的 基础 设施 。 

在 生产 实物 产品 的 公司 中 ,营销 人 员 花 钱 树立 品牌 效应 ,并 鼓励 消费 者 采购 。 消 费 者 
采购 的 场所 则 包括 零售 商店 、 汽 车 经 销 店 .电影 院 以 及 其 他 实际 场所 ,此 外 还 有 网 上 商城 
如 亚马逊 。 在 出 售 技术 产品 的 公司 中 ,营销 人 员 往 往 试 图 推动 潜在 客户 直接 访问 他 们 的 
网 站 。 例 如 ,一 家 技术 创业 公司 可 能 会 购买 谷歌 关键 词 广告 (出 现在 谷歌 网 站 和 所 有 谷歌 
出 版 合作 伙伴 的 网 站 上 的 文字 广告 ) ,希望 人 们 会 单 击 这 些 广 告 并 访问 他 们 的 网 站 。 在 网 
站 上 ,潜在 客户 可 能 会 试用 该 公司 的 产品 ,或 输入 其 联系 信息 以 下 载 资 料 或 观看 视频 ,这 
些 活 动 都 有 可 能 促成 客户 购买 该 公司 的 产品 。 

所 有 这 些 活动 都 会 留 下 包含 大 量 信息 的 电子 记录 ,记录 由 此 增长 了 10 倍 。 营 销 人 员 
从 众多 广告 网 络 和 媒体 类 型 中 选择 了 各 种 广告 ,他 们 也 可 能 从 客户 与 公司 互动 的 多 种 方 
式 中 收集 到 数据 。 这 些 互 动 包括 网 上 聊天 会 话 、 电 话 联系 、 网 站 访问 量 、 顾 客 实际 使 用 的 
产品 的 功能 ,甚至 是 特定 视频 的 最 为 流行 的 某 个 片段 等 。 从 前 公司 营销 系统 需要 创建 和 
管理 营销 活动 ,跟踪 业务 .向 客户 收取 费用 ,并 提供 服务 支持 的 功能 ,公司 通常 采用 安装 企 
业 软 件 解 决 方案 的 形式 ,但 其 花费 昂贵 且 难 以 实施 。IT 组 织 则 需要 购买 硬件 .软件 和 咨 
询 服 务 , 以 使 全 套 系统 运行 ,从 而 支持 市 场 营 销 、 计 费 和 客户 服务 业务 。 通 过 “软件 即 服 
务 ” 模 型 (SaaS, 简 称 为 软 营 模式 ) ,基于 云 计算 的 产品 已 经 可 以 运行 上 述 所 有 活动 了 。 企 
业 不 必 购 买 硬件 、 安 装 软件 .进行 维护 , 便 可 以 在 网 上 获得 最 新 和 最 优秀 的 市 场 营 销 、 客 户 
管理 `. 计 费 和 客户 服务 的 解决 方案 。 

如 今 ,许多 公司 拥有 的 大 量 客户 数据 都 存储 在 云 中 ,包括 企业 网 站 、 网 站 分 析 、 网 络 广 
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告 花费 ,故障 通知 单 等 。 很 多 与 公司 营销 工作 相关 的 内 容 ( 如 新 闻 稿 .新 闻 报 道 、 网 络 研讨 
会 .幻灯 片 放映 以 及 其 他 形式 的 内 容 ) 也 都 在 网 上 。 公 司 在 网 上 提供 产品 (如 在 线 协 作 工 
具 或 网 上 支付 系统 ) ,营销 人 员 就 可 以 通过 用 户 统计 和 产业 信息 知道 客户 或 潜在 客户 浏览 
过 哪 项 内 容 。 

现在 营销 人 员 的 挑战 和 机 遇 在 于 将 从 所 有 活动 中 获得 的 数据 汇集 起 来 ,使 之 产生 价 
值 。 营 销 人 员 可 以 尝试 将 所 有 数据 输入 电子 表格 中 ,并 做 出 分 析 , 以 确定 哪些 有 效 , 哪 些 
无 用 。 但 是 ,真正 理解 数据 需要 大 量 的 分 析 。 比 如 , 某 项 新 闻 发 布 是 否 增加 了 网 站 访问 
量 ? 某 篇 新 闻 文章 是 否 带 来 了 更 多 的 销售 线索 ? 网 站 访问 群体 能 否 归 为 特定 产业 部 分 ? 
什么 内 容 对 哪 种 访客 有 吸引 力 ? 网 站 上 一 个 按钮 移动 位 置 又 是 否 使 公司 的 网 站 有 了 更 高 
的 顾客 转化 率 ? 

营销 人 员 的 另 一 个 问题 是 了 解 客户 的 价值 ,尤其 是 他 们 可 以 带 来 多 少 和 盈利。 例如 ,一 
个 客户 只 花费 少量 的 钱 却 提出 很 多 支持 请 求 , 可 能 就 无 利 可 图 。 然 而 ,公司 很 难 将 故障 通 
知 单数 据 与 产品 使 用 数据 联系 起 来 ,特定 客户 创造 的 财政 收入 信息 与 获得 该 客户 的 成 本 
也 不 能 直接 挂钩 。 


3.5.3 自动 化 营销 


大 数据 营销 要 合乎 逻辑 ,不仅 要 将 不 同 数据 源 整合 到 一 起 ,为 营销 人 员 提 供 更 佳 的 仪 
表盘 和 解析 ,还 要 利用 大 数据 使 营销 实现 自动 化 。 然 而 ,这 颇 为 棘手 ,因为 营销 由 两 个 不 
同 的 部 分 组 成 : 创意 和 投递 。 

营销 的 创意 部 分 以 设计 和 内 容 创造 的 形式 出 现 。 例 如 ,计算 机 可 以 显示 出 红色 按钮 
还 是 绿色 按钮 .12 号 字体 还 是 14 号 字体 可 以 为 公司 获得 更 高 的 顾客 转换 率 。 假 如 要 运 
作 一 组 潜在 的 广告 , 它 也 能 分 辨 哪些 最 为 有 效 。 如 果 提 供 正 确 的 数据 ,计算 机 甚至 能 针对 
特定 的 个 人 信息 ,文本 或 图 像 广告 的 某 些 元 素 进行 优化 。 例 如 ,广告 优化 系统 可 以 将 一 条 
旅游 广告 个 性 化 ,将 参观 者 的 城市 名 称 纳 入 其 中 :“ 查 找 旧金山 和 纽约 之 间 的 最 低 票 价 ”， 
而 非 仅仅 “查找 最 低 票 价 ”。 接 着 , 它 就 可 以 确定 包含 此 信息 是 否 会 增加 转换 率 。 

从 理论 上 来 说 ,个 人 可 以 执行 这 种 操作 ,但 对 于 数 以 十 亿 计 的 人 群 来 说 ,执行 这 种 自 
定义 根本 就 不 可 行 ,而 这 正 是 网 络 营 销 的 专长 。 例 如 ,谷歌 平均 每 天 服务 的 广告 发 布 量 将 
近 三 百 亿 。 大 数据 系统 擅长 处 理 的 情况 是 : 大 量 数据 必须 迅速 处 理 , 迅 速 发 挥 作用 。 

一 些 解决 方案 应 运 而 生 ,它们 为 客户 行为 自动 建 模 以 提供 个 性 化 广告 。 像 TellApart 
公司 (一 项 重新 定位 应 用 ) 这 样 的 解决 方案 正在 将 客户 数据 的 自动 化 分 析 与 基于 该 数据 展 
示 相 关 广 告 的 功能 结合 起 来 。TellApart 公司 能 识别 离开 零售 商 网 站 的 购物 者 , 当 他 们 
访问 其 他 网 站 时 ,就 向 他 们 投递 个 性 化 的 广告 。 这 种 个 性 化 的 广告 将 购物 者 带 回 到 零售 
商 的 网 站 ,通常 能 促成 一 笔 交 易 。 通 过 分 析 购 物 者 的 行为 ,TellApart 公司 能 够 锁定 高 质 
量 顾客 的 预期 目标 ,同时 排除 根本 不 会 购买 的 人 群 。 

就 营销 而 言 ,自动化 系统 主要 涉及 大 规模 广告 投放 和 销售 线索 评分 , 即 基 于 种 种 预定 
因素 对 潜在 客户 线索 进行 评分 ,比如 线索 源 。 这 些 活动 很 适合 数据 挖掘 和 自动 化 ,因为 它 
们 的 过 程 都 定义 明确 ,而 具体 决策 有 待 制 定 ( 比 如 确定 一 条 线索 是 否 有 价值 ) 并 且 结 果 可 
以 完全 自动 化 (例如 选择 投放 哪 种 广告 )。 
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大 量 数据 可 用 于 帮助 营销 人 员 以 及 营销 系统 优化 内 容 创造 和 投递 方式 。 挑 战 在 于 如 
何 使 之 发 挥 作用 。 社 会 化 媒体 科学 家 丹 ， 萨 瑞 拉 已 研究 了 数 百 万 条 推 文 ,点 “ 赞 " 以 及 分 
享 ,并 且 他 还 对 转发 量 最 多 的 推 文 关联 词 ,发 博客 的 最 佳 时 间 以 及 照片 文本、 视频 和 链接 
的 相对 重要 性 进行 了 定量 分 析 。 大 数据 迎合 机 器 的 下 一 步 将 是 大 数据 应 用 程序 ,将 萨 瑞 
拉 这 样 的 研究 与 自动 化 内 容 营 销 活 动 管理 结合 起 来 。 

在 今后 的 岁月 里 ,我 们 将 看 到 智能 系统 继续 发 展 ,遍及 营销 的 方方面面 : 不 仅 是 为 线 
索 评 分 ,还 将 决定 运作 哪些 营销 活动 以 及 何 时 运作 ,并且 向 每 位 访客 呈现 个 性 化 的 理想 网 
站 。 营 销 软件 不 仅 包括 帮助 人 们 更 好 地 进行 决策 的 仪表 盘 而 已 ,借助 大 数据 ,营销 软件 将 
可 以 用 于 运作 营销 活动 并 优化 营销 结果 。 


3.5.4 为 营销 创建 高 容量 和 高 价值 的 内 容 


谈 到 为 营销 创建 内 容 , 大 多 数 公司 真 正 需要 创建 的 内 容 有 两 种 : 高 容量 和 高 价值 。 
比如 ,亚马逊 有 约 2. 48 亿 个 页 面 存储 在 谷歌 搜索 索引 中 。 这 些 页 面 被 称 为 “长 尾 *"。 人 们 
并 不 会 经 常 浏览 某 个 单独 的 页 面 ,但 如 果 有 人 搜索 某 一 特定 的 条 目 ,相关 页 面 就 会 出 现在 
搜索 列表 中 。 消 费 者 搜索 产品 时 ,就 很 有 可 能 看 到 亚马逊 的 页 面 。 人 类 不 可 能 将 这 些 页 
面 通过 手动 一 一 创建 出 来 。 相 反 ,亚马逊 却 能 为 数 以 百 万 计 的 产品 清单 自动 生成 网 页 。 
创建 的 页 面 对 单 个 产品 以 及 类 别 页 面 进 行 描述 ,其 中 ,类 别 页 面 是 多 种 产品 的 分 类 。 例 
如 ,一 个 耳机 的 页 面 上 一 般 列 出 了 所 有 耳机 的 类 型 , 附 上 单独 的 耳机 和 耳机 的 文本 介绍 。 
当然 ,每 一 页 都 可 以 进行 测试 和 优化 。 

亚马逊 的 优势 在 于 , 它 不 仅 拥有 庞大 的 产品 库存 (包括 其 自身 的 库存 和 亚马逊 合作 商 
户 所 列 的 库存 ) ,而 且 也 拥有 用 户 生 成 内 容 ( 以 商品 评论 形式 存在 ) 的 丰富 资源 库 。 亚 马 逊 
将 巨大 的 大 数据 源 ,产品 目录 以 及 大 量 的 用 户 生 成 内 容 结合 起 来 。 这 使 得 亚马逊 不 但 成 
为 销售 商 的 领导 者 ,也 成 为 优质 内 容 的 一 个 主要 来 源 。 除 了 商品 评论 ,亚马逊 还 有 产品 视 
频 ` 照 片 ( 鳞 由 亚马逊 提供 和 用 户 自 备 ) 以 及 其 他 形式 的 内 容 。 亚 马 逊 从 两 个 方面 收获 这 
项 回报 : 一 是 它 很 可 能 在 搜索 引擎 的 结果 中 被 发 现 ;二 是 用 户 认 为 亚马逊 有 优质 内 容 (不 
只 是 优质 产品 ) 就 直接 登录 亚马逊 进行 产品 搜索 ,从 而 使 顾客 更 有 可 能 在 其 网 站 上 购买 。 

按照 传统 标准 来 说 ,亚马逊 并 非 媒体 公司 ,但 它 实际 上 却 已 转变 为 媒体 公司 。 就 此 而 
言 ,亚马逊 也 绝 非 独树一帜 ,商务 社交 网 站 领 英 也 与 其 如 出 一 纤 。 在 很 短 的 时 间 内 ,今日 
领 英 (LinkedIn Today) 新 闻 整 合 服务 已 经 发 展 成 为 一 个 强大 的 新 营销 渠道 。 它 将 商业 
社交 网 站 转变 为 一 个 权威 的 内 容 来 源 , 在 这 个 过 程 中 为 网 站 的 用 户 提供 有 价值 的 服务 。 

过 去 , 当 用 户 想 和 别人 联系 或 开始 搜索 新 工作 时 ,就 会 频繁 使 用 领 英 。“ 今 日 领 英 " 新 
闻 整 合 服务 则 通过 来 自 网 上 的 新 闻 和 网 站 用 户 的 更 新 ,使 网 站 更 贴近 日 常生 活 。 通 过 呈 
现 与 用 户 相关 的 内 容 (根据 用 户 兴 趣 而 定 ), 领 英 比 大 多 数 传统 媒体 网 站 技 高 一 筹 。 网 站 
让 用 户 回访 的 手段 是 发 送 每 日 电子 邮件 ,其 中 包含 最 新 消息 预览 。 领 英 已 创建 了 一 个 大 
数据 内 容 引 擎 ,而 这 可 以 推动 新 的 流量 ,确保 现 有 用 户 回访 并 保持 网 站 的 高 度 吸引 力 。 


3.5.5 内 容 营 销 
驱动 产品 需求 和 保持 良好 前 景 都 与 内 容 创作 相关 : 博客 文章 .信息 图 表 、 视 频 、 播 客 、 
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幻灯 片 、 网 络 研讨 会 .案例 研究 .电子 邮件 、 信 息 以 及 其 他 材料 ,都 是 保持 内 容 引擎 运行 的 
能 源 。 

内 容 营销 是 指 把 和 营销 产品 一 样 多 的 努力 投入 到 为 产品 创建 的 内 容 的 营销 中 去 。 创 
建 优质 内 容 不 再 仅仅 意味 着 为 特定 产品 开发 案例 研究 或 产品 说 明 书 ,也 包括 提供 新 闻 故 
事 .教育 材料 以 及 娱乐 。 

在 教育 方面 ,IBM 就 有 一 个 网 上 课程 的 完整 组 合 。 度 假 租赁 网 站 Airbnb( 图 3-7) 创 
建 了 Airbnb TV, 以 展示 其 在 世界 各 个 城市 的 房地产 , 当然 ,在 这 个 过 程 中 也 展示 了 
Airbnb 本 身 。 你 不 能 再 局 限于 推销 产品 ,还 要 重视 内 容 营 销 ,所 以 内 容 本 身 也 必须 引 人 
注目 。 


图 3-7 Airbnb 服务 


3.5.6 内 容 创作 与 众 包 


内 容 创作 似乎 是 一 个 艰巨 且 耗 资 高 昂 的 任务 ,但 实际 并 非 如 此 。 众 包 是 一 种 相对 简 
单 的 方法 , 它 能 够 将 任务 进行 分 配 , 生 成 对 营销 来 讲 非常 重要 的 非 结构 化 数据 : 内 容 。 许 
多 公司 早已 使 用 众 包 来 为 搜索 引擎 优化 (SEO) 生 成 文章 ,这 些 文章 可 以 帮助 他 们 在 搜索 
引擎 中 获得 更 高 的 排名 。 很 多 人 将 这 样 的 内 容 众 包 与 高 容量 、 低 价值 的 内 容 联 系 起 来 。 
但 在 今天 ,高 容量 、 高 价值 的 内 容 也 可 能 使 用 众 包 。 众 包 并 不 是 取代 内 部 内 容 开 发 ,但 它 
可 以 将 之 扩大 。 现 在 ,各 种 各 样 的 网 站 都 提供 众 包 服务 。 亚 马 逊 士 耳 其 机 器 人 (AMT) 经 
常 被 用 于 处 理 内 容 分 类 和 内 容 过 滤 这 样 的 任务 ,这 对 计算 机 而 言 很 难 ,但 对 人 类 来 说 却 很 
容易 。 亚 马 逊 自身 使 用 AMT 来 确定 产品 描述 是 否 与 图 片 相符 。 其 他 公司 连接 AMT 支 
持 的 编程 接口 ,以 提供 特定 垂直 服务 ,如 音频 和 视频 转录 。 

类 似 Freelancer. com 和 oDesk. com 这 样 的 网 站 经 常 被 用 来 查找 软件 工程 师 ,或 出 于 
搜索 引擎 优化 的 目的 创造 大 量 低 成 本 文章 。 而 像 99designs 和 Behance 这 样 的 网 站 则 帮 
助 创意 专业 人 士 (如 平面 设计 师 ) 展 示 其 作品 ,内 容 买 家 也 可 以 让 排队 的 设计 者 提供 创意 
作品 。 同 时 ,跑腿 网 站 跑腿 兔 (TaskRabbit) 这 样 的 公司 正在 将 众 包 服 务 应 用 到 线 下 , 例 
如 送 外 卖 、 商 场 内 部 清洗 以 及 看 管 宠物 等 。 

专门 为 网 络 营销 而 创造 的 相对 较 低 价 值 内 容 与 高 价值 内 容 之 间 的 主要 区 别 是 后 者 的 
权威 性 。 低 价值 内 容 往往 为 搜索 引擎 提供 优质 素材 ,以 一 篇 文章 的 形式 捕捉 特定 关键 词 
的 搜索 。 相 反 ,高 价值 内 容 往往 读 取 或 显示 更 多 的 专业 新 闻 、 教 育 以 及 娱乐 内 容 。 博 客 文 
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章 、 案 例 研究 、 思 想 领导 力 文 章 、 技 术 评 论 、 信 息 图 表 和 视频 访谈 等 都 属于 这 一 类 。 这 种 内 
容 也 正 是 人 们 想 要 分 享 的 类 型 。 此 外 ,如 果 你 的 观众 知道 你 拥有 新 鲜 、 有 趣 的 内 容 , 那 么 
他 们 就 更 有 理由 频繁 回访 你 的 网 站 ,也 更 有 可 能 对 你 和 你 的 产品 进行 持续 关注 。 

这 种 内 容 的 关键 是 , 它 必 须 具有 新 闻 价 值 教育 意义 或 娱乐 性 ,或 三 者 兼 具 。 对 于 正 
努力 提供 这 种 内 容 的 公司 来 说 ,好 消息 就 是 众 包 使 之 变 得 比 以 往 任何 时 候 都 更 容易 了 。 

众 包 服务 可 以 借 由 类 似 99designs 网 站 这 样 的 网 站 形式 实现 ,但 并 不 是 必需 的 。 只 
要 你 为 内 容 分 发 网 络 提供 一 个 网 络 架构 ,就 可 以 插入 众 包 服务 ,生成 内 容 。 例 如 ,你 可 以 
为 自己 的 网 站 创建 一 个 博客 ,编写 自己 的 博客 文章 :也 可 以 发 布 贡献 者 的 文章 ,比如 客户 
和 行业 专家 所 撰写 的 文章 。 

如 果 你 为 自己 的 网 站 创建 了 一 个 TV 部 分 ,就 可 以 发 布 视频 ,包括 自己 创作 的 视频 
集 、 源 自 其 他 网 站 (如 YouTube) 的 视频 以 及 通过 众 包 服务 创造 的 视频 。 视 频 制作 者 可 以 
是 自己 的 员工 、 承 包 商 或 行业 专家 ,他 们 可 以 进行 自我 采访 。 你 也 可 以 以 大 致 相同 的 方 
式 , 对 网 络 研讨 会 和 网 络 广 播 进行 众 包 。 只 需 查找 为 其 他 网 站 贡献 内 容 的 人 ,再 联系 他 
们 ,看 看 他 们 是 否 有 兴趣 加 入 你 的 网 站 即 可 。 使 用 众 包 是 保持 高 价值 内 容 生 产 机 器 持续 
运作 的 有 效 方式 , 它 只 需 一 个 内 容 策 划 人 或 内 容 经 理 对 这 个 过 程 进行 管理 即 可 。 


3.5.7 用 投资 回报 率 评价 营销 效果 


内 容 创作 的 另 一 方面 就 是 分 析 所 有 非 结 构 化 内 容 , 从 而 了 解 它 。 计 算 机 使 用 自然 语 
言 处 理 和 机 器 学 习 算 法 来 理解 非 结构 化 文本 ,如 推 特 每 天 要 处 理 5 亿 条 推 文 。 这 种 大 数 
据 分 析 被 称 为 “情绪 分 析 ? 或 “意见 挖掘 ”。 通 过 评估 人 们 在 线 发 布 的 论坛 帖子 、 推 文 以 及 
其 他 形式 的 文本 ,计算 机 可 以 判断 消费 者 关注 品牌 的 正面 影响 还 是 负面 影响 。 

然而 ,尽管 出 于 营销 目的 的 数字 媒体 得 以 迅速 普及 ,但 是 营销 测量 的 投资 回报 率 
(ROD 仍 然 会 出 现 惊 人 误差 。 根 据 一 项 对 243 位 首席 营销 官 和 其 他 高 管 所 做 的 调查 显 
示 ,57% 的 营销 人 员 制 订 预 算 时 不 采取 计算 投资 回报 率 的 方法 。 约 68% 的 受 访 者 表示 ， 
他 们 基于 以 往 的 开支 水 平 制 订 预 算 ,28% 的 受 访 者 表示 依靠 直觉 ,而 7% 的 受 访 者 表示 其 
营销 支出 决策 不 基于 任何 数据 记录 。 

最 先进 的 营销 人 员 将 大 数据 的 力量 应 用 到 工作 当中 一 一 从 营销 工作 中 排除 不 可 预测 
的 部 分 ,并 继续 推动 其 营销 ,工作 数据 化 ,而 其 他 人 将 继续 依赖 于 传统 的 指标 (如 品牌 知名 
度 ) 或 根本 没有 衡量 方法 。 这 意味 着 两 者 之 间 的 差距 将 日 益 扩 大 。 

营销 的 核心 将 仍 是 创意 。 最 优秀 的 营销 人 员 将 使 用 大 数据 优化 发 送 的 每 封 电子 邮 
件 、 撰 写 的 每 一 篇 博客 文章 以 及 制作 的 每 一 个 视频 。 最 终 ,营销 的 每 一 部 分 将 借助 算法 变 
得 更 好 ,例如 确定 合适 的 营销 主题 或 时 间 。 正 如 现在 华尔街 大 量 的 交易 都 是 由 金融 工程 
师 完 成 的 一 样 ,营销 的 很 大 一 部 分 工作 也 将 以 相同 的 方式 自动 完成 。 创 意 将 选择 整体 策 
略 ,但 金融 工程 师 将 负责 运作 及 执行 。 

当然 ,优秀 的 营销 不 能 替代 优质 的 产品 。 大 数据 可 以 帮助 你 更 有 效 地 争取 潜在 客户 ， 
它 可 以 帮助 你 更 好 地 了 解 顾客 以 及 他 们 的 消费 数额 , 它 还 可 以 帮 你 优化 网 站 ,这样 ,一旦 
引起 潜在 客户 的 注意 ,将 他 们 转换 为 客户 的 可 能 性 就 更 大 。 但 是 ,在 这 样 一 个 时 代 , 评 论 
以 百 万 条 计算 ,消息 像 野火 一 样 四 处 草 延 ,单单 靠 优秀 的 营销 是 不 够 的 ,提供 优质 的 产品 
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仍然 是 首要 任务 。 
【延伸 阅读 】 
谷歌 联合 创始 人 拉 里 : 佩 奇 


一 夜 之 间 ,谷歌 蔡 代 革 果 成 了 全 球 市 值 最 大 的 上 市 公司 。 但 是 不 知 你 有 没有 意识 到 
这 样 一 个 问题 , 提 到 苹果 我 们 能 想起 乔布斯 ,能 议论 库 克 ; 提 到 Facebook 我 们 能 知道 扎 克 
伯 格 ;很 多 世界 级 科技 公司 的 创始 人 我 们 都 很 熟悉 。 但 你 能 说 出 谷歌 的 创始 人 是 谁 吗 ? 
拥有 一 家 体 量 如 此 巨大 的 公司 ,为 何 这 个 创始 人 的 形象 在 公众 面前 如 此 模糊 ? 他 又 有 哪 
些 过 人 之 处 ,能 打造 出 这 样 一 家 全 球 巨 头 ? 这 个 低调 的 他 ,就 是 谷歌 联合 创始 人 拉 里 。 佩 
奇 (Larry Page, 图 3-8) 。 


图 3-8 谷歌 联合 创始 人 拉 里 。 佩 奇 


讲 到 拉 里 。 佩 奇 的 低调 ,有 过 这 样 一 个 故事 。 几 年 前 ,一 个 负责 洛克 和 希 德 。 马 丁 公司 
的 核 聚变 项 目的 工程 师 无 聊 地 在 谷歌 某 间 会 议 室 的 沙发 上 坐 着 。 一 个 陌生 男人 走 到 他 面 
前 ,足下 来 跟 他 聊天 。 他 们 花 了 二 十 分 钟 聊 可 持续 的 巨变 反应 需要 的 时 间 、 资 金 和 技术 等 
话题 ,讨论 通过 模拟 太阳 的 能 量 来 制造 清洁 能 源 的 可 能 性 。 然 后 这 个 工程 师 意 识 到 自己 
还 不 知道 对 方 的 名 字 。 询 问 之 后 ,对 方 告诉 他 : 我 是 拉 里 。 佩 奇 。 到 这 一 刻 , 这 个 工程 师 
才 意 识 到 这 个 几乎 半 跪 在 自己 面前 的 男人 就 是 身价 亿 万 的 谷歌 联合 创始 人 。“ 他 在 报 自 
已 名 字 的 时 候 , 完 全 没有 那 种 责怪 我 有 眼 不 识 泰山 的 样子 。” 工 程 师 回 忆 道 。 

除了 像 路 人 一 样 出 现在 自己 的 公司 里 。 拉 里 。 佩 奇 还 有 更 多 与 其 他 CEO 不 一 样 的 
地 方 。 比 如 说 ,他 不 愿意 把 时 间 花 在 跟 公 司 的 投资 人 在 沟通 会 上 讲 这 讲 那 ,也 不 喜欢 站 在 
聚光灯 下 介绍 公司 的 新 产品 。 其 至 在 2013 年 之 后 .他 就 再 也 没有 在 公司 财报 公布 后 的 财 
务 电 话 会 议 上 出 现 过 。 其 至 在 公司 新 品 的 发 布 会 上 ,你 也 只 能 跟着 有 着 丰富 狗仔 技能 的 
摄影 记者 在 远离 人 群 的 角落 里 , 趁 他 想 从 门 颖 中 偷偷 离开 时 强行 制造 “偶遇 ”。 

佩 奇 尤其 不 喜欢 接受 媒体 采访 。 一 名 苦 追 他 两 年 多 的 《纽约 时 报 》 记 者 是 这 样 吐槽 
的 : 到 现在 为 止 ,我 只 “ 遇 到 ”过 佩 奇 三 次 ,加 起 来 不 到 五 分 钟 。 其 中 有 一 次 这 名 记者 在 谷 
歌 园区 内 跟 高 管 聊 得 正 欢 , 骑 自行 车 经 过 的 佩 奇 停 下 来 跟 他 们 打招呼 ,但 听 到 记者 的 自我 
介绍 以 后 ,他 “立刻 骑 车 走 开 了 ”。 隐 授 于 公众 视线 并 不 意味 着 他 就 是 一 名 隐士 。 在 各 种 
机 器 人 技术 交流 的 会 议 以 及 TED 演讲 这 类 知识 分 享 型 的 场合 , 佩 奇 显得 异常 活跃 。 你 
能 看 到 他 忙 着 跟 各 种 人 交流 技术 ,为 企业 家 或 者 创业 者 支 招 解难 。 
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硅谷 的 CEO 们 通常 都 是 病 迷 于 各 类 技术 的 ,但 拉 里 。 佩 奇 跟 大 家 不 一 样 的 地 方 在 
于 ,他 投入 在 技术 上 的 精力 远 远 超过 了 谷歌 的 核心 业务 范围 ,这 也 在 很 大 程度 上 反映 出 了 
他 的 个 人 魅力 。 他 希望 把 谷歌 带 向 更 辽阔 的 疆域 。 于 是 他 推动 了 Alphabet 的 出 现 ,通过 
把 特别 挣 钱 的 谷歌 广告 业务 和 无 人 车 、 太 空 旅行 .智能 城市 等 目前 只 烧 钱 不 赚钱 的 业务 折 
分 开 来 ,他 很 好 地 平衡 了 自己 丰富 的 想象 空间 和 上 市 公司 盈利 指标 之 间 的 关系 。 在 2012 
年 宣布 重组 谷歌 的 时 候 , 他 就 跟 他 的 创始 人 小 伙伴 ,也 是 他 在 斯 坦 福 大 学 读 博 士 时 的 同学 
谢 尔 盖 。 布 林 说 好 了 ,要 重新 找 人 找 技术 ,为 谷歌 (现在 称 为 Alphabet 或 许 更 准确 一 些 ) 
瘦身 。 这 样 一 来 , 拆 分 出 来 的 新 公司 带头 人 们 就 会 在 自己 的 业务 线 上 拥有 更 多 的 自主 权 。 

想 要 理解 拉 里 。 佩 奇 为 何 会 为 这 些 不 赚钱 的 项 目 如 此 大 动 干 蕊 也 不 难 ,你 只 要 知道 
他 是 怎样 的 一 个 好 奇 宝 宝 就 可 以 了 。 一 直 以 来 , 佩 奇 都 对 新 奇 的 事物 没有 抵抗 力 。 在 密 
歌 根 大 学 读书 时 ,他 就 鼓 的 过 太阳 能 汽车 .音乐 合成 器 ,还 建言 学 校 建 一 条 有 轨 电 车 。 
1995 年 到 斯 坦 福 念 博士 之 后 ,又 有 了 一 系列 稀奇 古怪 的 想法 : 能 不 能 让 汽车 自己 行驶 起 
来 ? 能 不 能 用 网 络 超 链 来 让 网 络 搜索 更 方便 。 虽 然 现 在 看 来 ,这 些 都 不 是 新 鲜 事 。 但 是 
那 可 是 计算 机 都 还 没 普及 的 1995 年 啊 ! 最 后 ,在 他 的 导师 Terry Winograd 的 带领 下 , 佩 
奇 走 上 了 搜索 之 路 。 也 正 是 这 样 才 有 了 后 来 的 谷歌 。 

他 的 好 奇 心 之 大 ,在 谷歌 . 奥 菜 利 传媒 公司 以 及 数码 科学 共同 赞助 的 邀请 制 年 度 大 会 
Sci Foo Camp 上 表现 得 最 明显 。 每 年 ,只 有 受到 邀请 的 人 才能 参加 此 大 会 。 这 种 " 非 会 
议 (Unconference, 议 程 由 参与 者 推动 .创建 )”" 在 很 大 程度 上 没有 什么 组 织 架 构 。 开 始 时 ， 
每 一 位 与 会 者 , 既 有 天 文学 家 、 心 理学 家 、 物 理学 家 ,也 有 其 他 领域 的 精英 ,把 自己 感 兴趣 
的 事 写 在 一 张 小 卡 片上 ,然后 贴 在 同一 面 墙 上 。 接 下 来 ,这 些 纸 片 就 成 了 就 科学 伦理 和 人 
工 智 能 等 主题 展开 热烈 讨论 的 基础 。2012 年 6 月 ,在 加 利 福 尼 亚 州 山 景 城 的 谷歌 园区 举 
办 的 这 种 活动 上 , 拉 里 。 佩 奇 并 没有 主持 会 议 , 也 没有 发 表演 讲 , 而 是 兴奋 地 穿梭 于 各 位 
科学 家 之 间 ,热烈 讨论 各 种 "不 着 边际 ”的 话题 。 巴 尔 的 摩 太 空 望 远 镜 科学 研究 所 助理 天 
文学 家 乔 什 。 皮 克 说 ,我 隐约 约 约 记得 ,当时 好 像 是 有 个 创始 人 模样 的 人 在 人 群 中 来 回 
穿梭 。 这 类 活动 很 少 被 外 人 所 知 ,原因 很 简单 : 拉 里 。 佩 奇 这 么 不 喜欢 媒体 的 人 ,自然 不 
会 让 新 闻 媒 体 来 到 会 场 破坏 自己 的 好 兴致 。 

在 谷歌 , 佩 奇 经 常会 抓 着 人 问 各 种 问题 ,他 的 问题 包括 : 这 个 变压器 怎么 工作 呢 ? 它 
的 动力 是 怎么 输 进来 的 ? 这 个 东西 的 成 本 包含 哪些 部 分 ? 2012 年 在 财富 全 球 论 坛 上 , 佩 
奇 表 示 他 特别 喜欢 跟着 员工 往 公 司 的 数据 中 心 跑 。 他 常常 一 人 分 饰 企业 家 和 商人 两 个 角 
色 , 不 停 地 思考 ,这 里 会 有 什么 商机 ? 另 一 个 他 经 常 思考 的 问题 是 ,为 什么 不 能 把 事情 做 
得 更 大 一 些 ? 很 多 从 谷歌 出 来 的 直接 与 拉 里 共事 过 的 人 都 这 样 来 描述 他 的 管理 风格 : 首 
先是 接受 新 的 技术 或 者 产品 理念 ,然后 集中 把 它们 尽 可 能 多 地 推 向 不 同 领 域 。 为 什么 新 
版 的 谷歌 不 能 被 用 来 预测 未 来 生活 中 可 能 出 现 的 一 切 ? 为 什么 在 已 经 拥有 可 以 直接 购买 
全 世界 任何 产品 的 情况 下 还 要 单 开 个 账户 去 买 个 保险 。 

但 企业 的 成 功 意 味 着 扩张 ,最近 很 多 工程 师 都 离开 谷歌 转投 新 兴 的 对 手 阵 营 ,比如 他 
们 选择 跳 去 FB 或 者 优 步 。 佩 奇 靠 自 己 的 魅力 留 住 了 一 部 分 人 ,至 少 最 近 的 一 些 迹象 表 
明 ,通过 中 一 些 年 轻 人 沟通 ,他 开始 意识 到 自己 的 公司 对 有 企业 家 精神 的 年 轻 人 来 说 正在 
失去 吸引 力 。 正 因为 如 此 ,他 把 * 现 金牛” 谷歌 的 上 日常 管理 全 权 交 给 了 Sundar Pichai。 这 
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位 新 CEO 的 工作 内 容 不 再 是 研究 如 何 防 治 癌 症 或 者 发 送 火 箭 这 种 新 玩意 ,而 是 如 何 维持 
广告 业务 继续 高 速 运转 ,如 何在 智能 机 器 以 及 虚拟 现实 等 新 兴 领 域 持 续 创新 ,同时 他 也 许 
还 需要 花费 掉 几 年 的 时 间 来 克服 重重 管理 困难 来 理 顺 新 公司 的 管理 制度 。 至 于 从 这 些 宛 
杂 的 业务 中 解脱 出 来 的 拉 里 。 佩 奇 , 他 可 以 更 加 自在 地 放眼 于 寻找 新 任 千 里 马 以 及 技术 
前 瞻 。 当 然 , 为 Alphabet 的 诸多 业务 寻找 合适 的 CEO 是 他 最 急需 完成 的 任务 。 

梳理 佩 奇 为 数 不 多 的 公开 发 言 ,你 会 发 现 他 的 言论 焦点 多 是 关于 未 来 的 乐观 宣言 ,以 
及 谷歌 帮助 人 类 的 连 切 愿望 。 如 果 被 问 及 当下 的 一 些 问题 ,比如 说 移动 应 用 对 互联 网 构 
成 了 怎样 的 挑战 ,或 者 拦截 工具 对 谷歌 业务 产生 了 怎样 的 影响 时 ,他 通常 会 避重就轻 地 
说 ,“ 这 个 问题 人 们 已 经 讨论 了 很 长 时 间 ”。 近 来 ,他 更 多 地 谈 起 了 自己 的 信念 , 称 以 盈利 
为 目的 的 公司 可 以 成 为 社会 公益 和 变革 的 驱动 力量 。2014 年 在 接受 采访 时 , 佩 奇 说 , 比 
起 非 盈利 性 或 者 勾 疼 组 织 ,他 更 愿意 把 自己 的 钱 留 给 像 马 斯 克 这 样 的 企业 家 。 

2012 年 第 四 季度 财报 中 首次 披露 的 核心 业务 之 外 的 营 收 数 据 中 ,投资 者 更 加 清楚 地 
看 到 了 拉 里 。 佩 奇 的 雄心 壮志 。 人 谷歌 将 一 些 非 常 疯狂 而 又 不 太 可 能 实现 的 项 目 称 为 
Moonshot ,包括 无 人 驾驶 汽车 、 联 网 气球 等 。 大 多 数 Moonshot 项 目 都 还 处 于 早期 阶段 ， 
还 没 能 产生 营 收 。 在 2015 年 ,谷歌 在 这 些 Moonshot 项 目 上 的 亏损 高 达 36 亿美 元 。 但 
这 个 数字 跟 谷歌 的 核心 业务 成 本 相 比 起 来 并 不 显得 那么 可 怕 。 根 据 Alphabet 的 财报 ， 
2015 年 ,谷歌 核心 业务 包括 服务 器 .房地产 和 人 力 资源 在 内 的 资本 支出 达到 88. 5 亿 
美元 。 

拉 里 。 佩 奇 最 令 人 称赞 的 一 点 是 : 不 管 工 作 多 么 忙 , 他 都 尽 可 能 地 让 自己 的 生活 正 
常 进行 ,比如 他 要 开车 送 孩 子 们 上 学 ,或 者 带 家 人 一 起 到 当地 街头 闲 违 。 在 他 最 后 一 次 登 
上 谷歌 I/O 的 舞台 时 ,他 还 分 享 了 自己 父亲 对 自己 的 职业 选择 的 影响 “他 会 开车 带 着 我 
和 家 人 ,一 路 穿 过 全 美国 ,只 为 了 参加 机 器 人 技术 大 会 。 当 我 们 到 达 时 ,他 觉得 让 自己 的 
小 儿子 参加 这 个 大 会 是 一 件 非常 重要 的 事 , 所 以 他 会 拉 下 脸 和 别人 争论 大 半天 ,目的 只 有 
一 个 , 那 就 是 让 一 个 年 龄 不 足 的 孩子 成 功 足 进 了 大 会 ,而 那个 孩子 便 是 我 。 要 知道 ,我 的 
父亲 很 少 和 人 和 争论。” 

资料 来 源 : 腾讯 科技 , 相 欣 ,2013 年 8 月 4 日 
【实验 与 思考 】 
大 数据 营销 的 优势 与 核心 内 肖 
1. 实验 目的 


(1) 深刻 理解 2012 年 大 数据 跨 界 年 度 的 内 涵 ; 
(2) 熟悉 世界 级 大 数据 企业 谷歌 .亚马逊 、 领 英 等 的 大 数据 行动 ; 
(3) 了 解 大 数据 营销 的 主要 方法 。 


2. 工具 /准备 工作 
在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 。 


捕 回 坪 天 的 了 DT 


3. 实验 内 容 与 步骤 


(1) 为 什么 说 2012 年 是 “大 数据 的 跨 界 年 度 "? 
答 : 


(2) 在 大 数据 业务 方面 ,谷歌 公司 的 主要 优势 有 哪些 ? 
答 : 


(3) 互联 网 零售 商 亚马逊 是 大 数据 应 用 的 领先 企业 ,同时 也 是 一 个 推行 大 数据 的 大 
型 技术 公司 ,亚马逊 是 如 何 成 为 世界 级 大 数据 技术 企业 的 ? 
答 : 


(4) 请 仔细 阅读 3. 5 节 , 研 究 并 简 述 : 大 数据 营销 的 优势 和 核心 内 容 是 什么 ? 
答 : 


(5) 搜索 并 浏览 商业 社交 网 站 领 英 (LinkedIn) ,了 解 该 网 站 是 如 何在 世界 范围 内 开 


展 职场 服务 的 ? 领 英 与 Facebook、 推 特 、 微 信 等 社交 网 站 有 什么 不 同 ? 
葵 ， 


合 : 


攻 


4. 实验 总 结 


5. 实验 评价 (教师 ) 


第 综 意 
大 数据 时 代 的 思维 变革 


【导读 案例 】 
亚 马 迎 推荐 系统 


虽然 亚马逊 的 故事 大 多 数 人 都 耳熟能详 ,但 只 有 少数 人 知道 它 早 期 的 书评 内 容 最 初 
是 由 人 工 完成 的 。 当 时 , 它 聘 请 了 一 个 由 二 十 多 名 书评 家 和 编辑 组 成 的 团队 ,他 们 写 书 
评 、 推 荐 新 书 ,挑选 非常 有 特色 的 新 书 标题 放 在 亚马逊 的 网 页 上 。 这 个 团队 创立 了 " 亚 马 
避 的 声音 ”这 个 版 块 ,成 为 当时 公司 皇冠 上 的 一 颗 宝 石 ,是 其 竞争 优势 的 重要 来 源 。《 华 尔 
街 日 报 ) 的 一 篇 文章 中 热情 地 称 他 们 为 全 美 最 有 影响 力 的 书评 家 ,因为 他 们 使 得 书籍 销量 
猛 增 。 

亚马逊 公司 的 创始 人 及 总 裁 杰 夫 。 贝 索 斯 决定 尝试 一 个 极 富 创造 力 的 想法 : 根据 客 
户 个 人 以 前 的 购物 喜好 ,为 其 推荐 相关 的 书籍 。 

从 一 开始 ,亚马逊 就 从 每 一 个 客户 那里 收集 了 大 量 的 数据 。 比 如 说 ,他 们 购买 了 什么 
书籍 ? 哪些 书 他 们 只 浏览 却 没有 购买 ? 他 们 浏览 了 多 久 ? 哪些 书 是 他 们 一 起 购买 的 ? 客 
户 的 信息 数据 量 非常 大 ,所 以 亚马逊 必须 先 用 传统 的 方法 对 其 进行 处 理 , 通 过 样本 分 析 找 
到 客户 之 间 的 相似 性 。 但 这 些 推 荐 信息 是 非常 原始 的 ,就 如 同 你 在 买 一 件 婴 儿 用 品 时 ,会 
被 淹没 在 一 堆 差不多 的 婴儿 用 品 中 一 样 。 麻 姆 断 。 马 库 斯 回忆 说 :“ 推 荐 信息 往往 为 你 
提供 与 你 以 前 购买 物品 有 微小 差异 的 产品 ,并 且 循 环 往复 。” 

亚马逊 的 格雷 格 。 林 登 很 快 就 找到 了 一 个 解决 方案 。 他 意识 到 ,推荐 系统 实际 上 并 
没有 必要 把 顾客 与 其 他 顾客 进行 对 比 , 这 样 做 其 实在 技术 上 也 比较 烦琐 。 它 需要 做 的 是 
找到 产品 之 间 的 关联 性 。1998 年 , 林 登 和 他 的 同事 申请 了 著名 的 “item-to-item” 协 同 过 
滤 技 术 的 专利 。 方 法 的 转变 使 技术 发 生 了 翻天 履 地 的 变化 。 

因为 估算 可 以 提前 进行 ,所 以 推荐 系统 不 仅 快 ,而 且 适 用 于 各 种 各 样 的 产品 。 因 此 ， 
当 亚 马 逊 跨 界 销售 除 书 以 外 的 其 他 商品 时 ,也 可 以 对 电影 或 烤 面 包机 这 些 产 品 进 行 推荐 。 
由 于 系统 中 使 用 了 所 有 的 数据 ,推荐 会 更 理想 。 林 登 回忆 道 :“ 在 组 里 有 向 玩笑 话 , 说 的 
是 如 果 系 统 运作 良好 ,亚马逊 应 该 只 推荐 你 一 本 书 , 而 这 本 书 就 是 你 将 要 买 的 下 一 本 书 。” 

现在 ,公司 必须 决定 什么 应 该 出 现在 网 站 上 。 是 亚马逊 内 部 书评 家 写 的 个 人 建议 和 
评论 ,还 是 由 机 器 生成 的 个 性 化 推荐 和 畅销 书 排行 榜 ? 

林 登 做 了 一 个 关于 评论 家 所 创造 的 销售 业绩 和 计算 机 生成 内 容 所 产生 的 销售 业绩 的 
对 比 测 试 , 结 果 他 发 现 两 者 之 间 相 差 其 远 。 他 解释 说 ,通过 数据 推荐 产品 所 增加 的 销售 远 
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远 超过 书评 家 的 贡献 。 计 算 机 可 能 不 知道 为 什么 喜欢 海明威 作品 的 客户 会 购买 菲 英杰 拉 
德 的 书 。 但 是 这 似乎 并 不 重要 ,重要 的 是 销量 。 最 后 ,编辑 们 看 到 了 销售 额 分 析 , 亚 马 逊 
也 不 得 不 放弃 每 次 的 在 线 评论 ,最 终 , 书 评 组 被 解散 了 。 林 登 回忆 说 ;“ 书 评 团 队 被 打败 、 
被 解散 ,我 感到 非常 难过 。 但 是 ,数据 没有 说 说 ,人 工 评论 的 成 本 是 非常 商 的 。” 

如 今 ,据说 亚马逊 销售 额 的 三 分 之 一 都 来 自 于 它 的 个 性 化 推荐 系统 。 有 了 它 ,亚马逊 
不 仅 使 很 多 大 型 书店 和 音乐 唱片 商店 软 业 ,而 且 当 地 数 百 个 自 认 为 有 自己 风格 的 书 商 也 
难免 受 转型 之 风 的 影响 。 

知道 人 们 为 什么 对 这 些 信息 感 兴趣 可 能 是 有 用 的 ,但 这 个 问题 目前 并 不 是 很 重要 。 
但 是 ,知道 “是 什么 ”可 以 创造 点 击 率 , 这 种 洞察 力 足 以 重 塑 很 多 行业 ,不 只 是 电子 商务 。 
所 有 行业 中 的 销售 人 员 早 就 被 告知 ,他 们 需要 了 解 是 什么 让 客户 做 出 了 选择 ,要 把 握 客 户 
做 决定 背后 的 真正 原因 ,因此 专业 技能 和 多 年 的 经 验 受 到 高 度 重 视 。 大 数据 却 显示 ,还 有 
另外 一 个 在 某 些 方面 更 有 用 的 方法 。 亚 马 逊 的 推荐 系统 梳理 出 了 有 趣 的 相关 关系 ,但 不 
知道 背后 的 原因 一 一 知道 是 什么 就 够 了 , 没 必要 知道 为 什么 。 

阅读 上 文 ,请 思考 、 分 析 并 简单 记录 : 

(1) 你 熟悉 亚马逊 等 电 商 网 站 的 推荐 系统 吗 ? 请 列举 一 个 这 样 的 实例 (你 选择 购买 
什么 商品 ,网 站 又 给 你 推荐 了 其 他 什么 商品 ) 。 

答 : 


(2) 亚马逊 书评 组 和 林 登 推荐 系统 各 自 成 功 的 基础 是 什么 ? 
答 : 


(3) 为 什么 书评 组 最 终 输 给 了 推荐 系统 ? 请 说 说 你 的 观点 。 
答 : 


(4) 请 简单 描述 你 所 知道 的 上 一 周 内 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
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41 大 数据 时 代 的 大 挑战 


人 类 使 用 数据 已 经 有 相当 长 一 段 时 间 了 ,无论 是 日 常 进行 的 大 量 非 正 式 观 察 ,还 是 过 
去 几 个 世纪 以 来 在 专业 层面 上 用 高 级 算法 进行 的 量化 研究 ,都 与 数据 有 关 。 

在 数字 化 时 代 , 数 据 处 理 变 得 更 加 容易 、 更 加 快速 ,人 们 能 够 在 瞬间 处 理 成 千 上 万 的 
数据 。 而 “大 数据 "全 在 于 发 现 和 理解 信息 内 容 及 信息 与 信息 之 间 的 关系 。 

实际 上 ,大 数据 的 精 散 在 于 我 们 分 析 信 息 时 的 三 个 转变 ,这 些 转变 将 改变 我 们 理解 和 
组 建 社 会 的 方法 ,这 三 个 转变 是 相互 联系 和 相互 作用 的 。 

第 一 个 转变 就 是 ,在 大 数据 时 代 ,我 们 可 以 分 析 更 多 的 数据 ,有 时 候 甚至 可 以 处 理 和 
某 个 特别 现象 相关 的 所 有 数据 ,而 不 再 是 只 依赖 于 随机 采样 。19 世纪 以 来 ,当面 临 大 量 
数据 时 ,社会 都 依赖 于 采样 分 析 。 但 是 采样 分 析 是 信息 缺乏 时 代 和 信息 流通 受 限制 的 模 
拟 数据 时 代 的 产物 。 以 前 我 们 通常 把 这 看 成 是 理所当然 的 限制 ,但 高 性 能 数字 技术 的 流 
行 让 我 们 意识 到 ,这 其 实 是 一 种 人 为 的 限制 。 与 局 限 在 小 数据 范围 相 比 ,使 用 一 切 数据 为 
我 们 带 来 了 更 高 的 精确 性 ,也 让 我 们 看 到 了 一 些 以 前 无 法 发 现 的 细节 一 一 大 数据 让 我 们 
更 清楚 地 看 到 了 样本 无 法 揭示 的 细节 信息 。 

第 二 个 转变 就 是 ,研究 数据 如 此 之 多 ,以 至 于 我 们 不 再 热衷 于 追求 精确 度 。 当 我 们 测 
量 事物 的 能 力 受 限时 ,关注 最 重要 的 事情 和 获取 最 精确 的 结果 是 可 取 的 。 直 到 今天 ,我 们 
的 数字 技术 依然 建立 在 精准 的 基础 上 。 我 们 假设 只 要 电子 数据 表格 把 数据 排序 ,数据 库 
引擎 就 可 以 找 出 和 我 们 检索 的 内 容 完 全 一 致 的 检索 记录 。 

这 种 思维 方式 适用 于 掌握 “小 数据 量 ? 的 情况 ,因为 需要 分 析 的 数据 很 少 , 所 以 我 们 必 
须 尽 可 能 精准 地 量化 我 们 的 记录 。 在 某 些 方面 ,我 们 已 经 意识 到 了 差别 。 例 如 ,一 个 小 商 
店 在 晚上 打 料 的 时 候 要 把 收银 台 里 的 每 分 钱 都 数 清楚 ,但 是 我 们 不 会 .也 不 可 能 用 "分 "这 
个 单位 去 精确 度量 国民 生产 总 值 。 随 着 规模 的 扩大 ,对 精确 度 的 痴迷 将 减弱 。 

达到 精确 需要 有 专业 的 数据 库 。 针 对 小 数据 量 和 特定 事情 ,追求 精确 性 依然 是 可 行 
的 ,比如 一 个 人 的 银行 账户 上 是 否 有 足够 的 钱 开 具 支 票 。 但 是 ,在 这 个 大 数据 时 代 , 很 多 
时 候 , 追 求 精确 度 已 经 变 得 不 可 行 ,甚至 不 受 欢 迎 了 。 当 我 们 拥有 海量 即时 数据 时 ,绝对 
的 精准 不 再 是 我 们 追求 的 主要 目标 。 大 数据 纷繁 多 样 , 优 劣 挨 杂 ,分布 在 全 球 多 个 服务 器 
上 。 拥 有 了 大 数据 ,我 们 不 再 需要 对 一 个 现象 刨 根 究 底 , 只 要 掌握 大 体 的 发 展 方向 即 可 。 
当然 ,我 们 也 不 是 完全 放弃 了 精确 度 , 只 是 不 再 沉迷 于 此 。 适 当 忽略 微观 层面 上 的 精确 度 
会 让 我 们 在 宏观 层面 拥有 更 好 的 洞察 力 。 

第 三 个 转变 即 我 们 不 再 热衷 于 寻找 因果 关系 。 这 是 因 前 两 个 转变 而 促成 的 。 寻 找 因 
果 关 系 是 人 类 长 久 以 来 的 习惯 ,即使 确定 因果 关系 很 困难 而 且 用 途 不 大 ,人 类 还 是 习惯 性 
地 寻找 缘由 。 相 反 , 在 大 数据 时 代 ,我 们 无 须 再 紧 盯 事物 之 间 的 因果 关系 ,而 应 该 寻找 事 
物 之 间 的 相关 关系 ,这 会 给 我 们 提供 非常 新 颖 上 且 有 价值 的 观点 。 相 关 关 系 也 许 不 能 准确 
地 告知 我 们 某 件 事情 为 何 会 发 生 ,但 是 它 会 提醒 我 们 这 件 事情 正在 发 生 。 在 许多 情况 下 ， 
这 种 提醒 的 帮助 已 经 足够 大 了 。 

如 果 数 百 万 条 电子 医疗 记录 显示 橙汁 和 阿司匹林 的 特定 组 合 可 以 治疗 癌症 ,那么 找 


矿 数 所 号 和 论 


出 具体 的 药理 机 制 就 没有 这 种 治疗 方法 本 身 来 得 重要 。 同 样 , 只 要 我 们 知道 什么 时 候 是 
买 机 票 的 最 佳 时 机 ,就算 不 知道 机 票 价格 疯狂 变动 的 原因 也 无 所 谓 了 。 大 数据 告诉 我 们 
“是 什么 ”而 不 是 “为 什么 ”。 在 大 数据 时 代 ,我 们 不 必 知 道 现 象 背后 的 原因 ,我 们 只 要 让 数 
据 自己 发 声 。 我 们 不 再 需要 在 还 没有 收集 数据 之 前 ,就 把 分 析 建 立 在 早已 设立 的 少量 假 
设 的 基础 之 上 。 让 数据 发 声 ,我 们 会 注意 到 很 多 以 前 从 来 没有 意识 到 的 联系 的 存在 。 


42 转变 之 一 : 样本 = 总 体 


大 数据 时 代 的 第 一 个 转变 ,是 要 分 析 与 某 事物 相关 的 所 有 数据 ,而 不 是 依靠 分 析 少 量 
的 数据 样本 。 

很 长 以 来 ,因为 记录 、 储 存 和 分 析 数 据 的 工具 不 够 好 ,为 了 让 分 析 变 得 简单 ,人 们 会 把 
数据 量 缩减 到 最 少 , 人 们 依据 少量 数据 进行 分 析 , 而 准确 分 析 大 量 数据 一 直 都 是 一 种 挑 
战 。 如 今 , 信 息 技术 的 条 件 已 经 有 了 非常 大 的 提高 .虽然 人 类 可 以 处 理 的 数据 依然 是 有 限 
的 ,但 是 可 以 处 理 的 数据 量 已 经 大 大 地 增加 ,而 且 示 来 会 越 来 越 多 。 

在 某 些 方面 ,人 们 依然 没有 完全 意识 到 自己 拥有 了 能 够 收集 和 处 理 更 大 规模 数据 的 
能 力 , 还 是 在 信息 匮乏 的 假设 下 做 很 多 事情 ,假定 自己 只 能 收集 到 少量 信息 。 这 是 一 个 自 
我 实现 的 过 程 。 人 们 甚至 发 展 了 一 些 使 用 尽 可 能 少 的 信息 的 技术 。 例 如 ,统计 学 的 一 个 
目的 就 是 用 尽 可 能 少 的 数据 来 证 实 尽 可 能 重大 的 发 现 。 事 实 上 ,我 们 形成 了 一 种 习惯 , 那 
就 是 在 制度 、 处 理 过 程 和 激励 机 制 中 尽 可 能 地 减少 数据 的 使 用 。 


4.2.1 小 数据 时 代 的 随机 采样 


数 千年 来 ,政府 一 直 都 试图 通过 收集 信息 来 管理 国民 ,只 是 到 最 近 , 小 企业 和 个 人 才 
有 可 能 拥有 大 规模 收集 和 分 类 数据 的 能 力 ， 
而 此 前 ,大 规模 的 计数 则 是 政府 的 事情 。 

以 人 口 普查 为 例 。 据 说 古代 埃及 曾 进行 
过 人 口 普 查 《 旧 约 》 和 《新 约 》 中 对 此 都 有 所 
提 及 。 那 次 由 奥 古 斯 都 恺 撤 ?( 图 4-1) 主导 
实施 的 人 口 普查 ,提出 了 “每 个 人 都 必须 

1086 年 的 《末日 审判 书 ) 对 当时 英国 的 
人 口 . 土 地 和 财产 做 了 一 个 前 所 未 有 的 全 面 图 4-1 奥 古 斯 都 已 撤 
记载 。 皇 家 委员 穿越 整个 国家 对 每 个 人 、 每 


@ 盖 乌 斯 屋 大 维 ,全 名 盖 乌 斯 。 尤 里 乌 斯 . 恺 撤 。 奥 古 斯 都 (前 63 年 9 月 23 日 一 14 年 8 月 19 日 ), 原 名 盖 
乌 斯 。 屋 大 维 。 图 里 努 斯 ,罗马 帝国 的 开国 君主 ,元 首 政 制 的 创始 人 ,统治 罗马 长 达 43 年 ,是 世界 历史 上 最 为 重要 的 
人 物 之 一 。 他 是 恺 撤 的 狗 孙 ,公元 前 44 年 被 恺 撤 收 为 养子 并 指定 为 继承 人 , 恺 撤 被 刺 后 登 上 政治 舞台 。 公 元 前 1 世 
纪 , 他 平息 了 企图 分 裂 罗 马 共和 国 的 内 战 ,被 元 老 院 赐 封 为 " 奥 古 斯 都 ", 并 改组 罗马 政府 ,给 罗马 世界 带 来 了 两 个 世纪 
的 和 平 与 繁荣 。14 年 8 月 ,在 他 去 世 后 ,罗马 元 老 院 决定 将 他 列 人 * 神 ”的 行列 。 


区 轩 多 内 数 思 是 代 的 同 组 钠 的 


件 事 都 做 了 记载 ,后 来 这 本 书 用 《圣经 ) 中 的 《末日 审判 书 ) 命 名 ,因为 每 个 人 的 生活 都 被 赤 
裸 裸 地 记载 下 来 的 过 程 就 像 接 受 * 最 后 的 审判 一样 。 然 而 ,人 口 普查 是 一 项 耗资 且 费 时 
的 事情 ,尽管 如 此 ,当时 收集 的 信息 也 只 是 一 个 大 概 情况 ,实施 人 口 普查 的 人 也 知道 他 们 
不 可 能 准确 记录 下 每 个 人 的 信息 。 实际 上 ,“ 人 口 普 查 ” 这 个 词 来 源 于 拉丁 语 的 
“censere” ,本意 就 是 推测 、 估 算 。 

三 百 多 年 前 ,一 个 名 叫 约 翰 。 格 朗 特 的 英国 缝 细 用品 商 提出 了 一 个 很 有 新 意 的 方法 ， 
来 推算 出 鼠疫 时 期 ?伦敦 的 人 口 数 ,这 种 方法 就 是 后 来 的 统计 学 。 这 个 方法 不 需要 一 个 
人 一 个 人 地 计算 。 虽 然 这 个 方法 比较 粗糙 ,但 采用 这 个 方法 ,人 们 可 以 利用 少量 有 用 的 样 
本 信息 来 获取 人 口 的 整体 情况 。 虽 然后 来 证 实 他 能 够 得 出 正确 的 数据 仅仅 是 因为 运气 
好 ,但 在 当时 他 的 方法 大 受 欢 迎 。 样 本 分 析 法 一 直 都 有 较 大 的 漏洞 ,因此 ,无 论 是 进行 人 
口 普查 还 是 其 他 大 数据 类 的 任务 ,人 们 还 是 一 直 使 用 清点 这 种 "野蛮 ”的 方法 。 

考虑 到 人 口 普查 的 复杂 性 以 及 耗 时 耗费 的 特点 ,政府 极 少 进行 普查 。 古 罗马 在 拥有 
数 十 万 人 口 的 时 候 每 5 年 普查 一 次 。 美 国 宪法 规定 每 10 年 进行 一 次 人 口 普查 ,而 随 着 国 
家 人 口 越 来 越 多 ,只 能 以 百 万 计数 。 但 是 到 19 世纪 为 止 ,即使 这 样 不 频繁 的 人 口 普查 依 
然 很 困难 ,因为 数据 变化 的 速度 超过 了 人 口 普 查 局 统计 分 析 的 能 力 。 

中 国 的 人 口 调查 有 近 四 千年 的 历史 , 留 下 了 丰富 的 人 口 史料 。 但 是 ,在 封建 制度 下 ， 
历代 政府 都 是 为 了 征 税 、 抽 丁 等 才 进行 人 口 调查 .因而 隐瞒 颈 报 人 口 的 现象 十 分 严重 , 调 
查 统计 的 口径 也 很 不 一 致 。 具 有 近代 意义 的 人 口 普 查 , 在 1949 年 以 前 有 过 两 次 : 四 清 宣 
统 元 年 (1909) 进 行 的 人 口 清查 ; @ 民 国 17 年 (1928) 国 民政 府 试行 的 全 国人 口 调查 。 前 
者 多 数 省 仅 调 查 户 数 而 无 人 口 数 , 推 算出 当时 中 国人 口 约 为 3.7 亿 多 人 ,包括 边民 户 数 总 
计 约 为 4 亿 人 口 。 后 者 只 规定 调查 常住 人 口 ,没有 规定 标准 时 间 。 经 过 三 年 时 间 ,也 只 对 
13 个 省 进行 了 调查 ,其 他 未 调查 的 省 的 人 数 只 进行 了 估算 。 调 查 加 估算 的 结果 ,全 国人 
口 约 为 4.75 亿 人 。 

新 中 国 建立 后 ,先后 于 1953、1964 和 1982 
年 举行 过 三 次 人 口 普查 。1990 年 人 口 普查 是 第 
四 次 全 国人 口 普查 。 前 三 次 人 口 普查 是 不 定期 
进行 的 , 自 1990 年 开始 改 为 定期 进行 。 根 据 《 中 
华人 民 共 和 国 统计 法 实施 细则 》 和 国务 院 的 决定 
以 及 国务 院 2010 年 颁布 的 (全 国人 口 普查 条 例 》 
规定 ,人 口 普查 每 10 年 进行 一 次 ,尾数 逢 0 的 年 
份 为 普查 年 度 ( 图 4-2)。 两 次 普查 之 间 ,进行 - > 
次 简易 人 口 普查 。2020 年 为 第 7 次 全 国人 口 普 图 4-2 中 国人 口 普查 


@ 鼠疫 时 期 : 鼠疫 也 称 黑 死 病 , 它 第 一 次 袭击 英国 是 在 1348 年 ,此 后 断断续续 延续 了 三 百 多 年 ,当时 英国 有 近 
1/3 的 人 口 死 于 鼠疫 。 到 1665 年 ,这 场 鼠疫 肆虐 了 整个 欧洲 , 几 近 疯 狂 。 仅 伦敦 地 区 就 死亡 六 七 万 人 以 上 。1665 年 
的 6 月 至 8 月 的 仅仅 三 个 月 内 ,伦敦 的 人 口 就 减少 了 十 分 之 一 。 到 1665 年 8 月 ,每 周 死亡 达 2000 人 ,9 月 竟 达 8000 
人 。 鼠 疫 由 伦敦 向 外 蔓延 ,英国 王室 逃 出 伦敦 ,市 内 的 富 人 也 携 家 带 口 匆 匆 出 逃 , 居 民 纷 纷 用 马车 装载 着 行李 , 朴 散 到 
了 乡间 。 


大 数 扎 导论 


查 时 间 。 
新 中 国 第 一 次 人 口 普查 的 标准 时 间 是 1953 年 6 月 30 日 24 时 ,所 谓 人 口 普 查 的 标准 
时 间 ,就 是 规定 一 个 时 间 点 ,无 论 普查 员 和 人 户 登 记 在 哪 一 天 进行 ,登记 的 人 口 及 其 各 种 特 
征 都 是 反映 那个 时 间 点 上 的 情况 。 根 据 上 述 规定 ,不管 普查 员 在 哪 天 进行 人 户 登 记 , 普 查 
对 象 所 申报 的 都 应 该 是 标准 时 间 的 情况 。 通 过 这 个 标准 时 间 , 所 有 普查 员 普 查 登 记 完成 
后 ,经 过 汇总 就 可 以 得 到 全 国人 口 的 总 数 和 各 种 人 口 状况 的 数据 。1953 年 11 月 1 日 发 
布 了 人 口 普查 的 主要 数据 ,当时 全 国人 口 总 数 为 601 938 035 人 。 
第 六 次 人 口 普查 的 标准 时 间 是 2010 年 11 月 1 日 零 时 。2011 年 4 月 ,发 布 了 第 六 次 
全 国人 口 普查 主要 数据 。 此 次 人 口 普查 登记 的 全 国 总 人 口 为 1 339 724 852 人 。 比 2000 
年 第 五 次 人 口 普查 相 比 ,10 年 增加 7390 万 人 ,增长 5. 84% ,年 平均 增长 0. 57%, 比 
1990 一 2000 年 年 均 1.07% 的 增长 率 下 降 了 0.5 个 百分点 。 
美国 在 1880 年 进行 的 人 口 普查 , 耗 时 8 年 才 完 成 数据 汇总 。 因 此 ,他 们 获得 的 很 多 
数据 都 是 过 时 的 。1890 年 进行 的 人 口 普 查 , 预 计 要 花费 13 年 的 时 间 来 汇总 数据 。 然 而 ， 
因为 税收 分 扒 和 国会 代表 人 数 确定 都 是 建立 在 人 口 的 基础 上 的 ,必须 获得 正确 且 及 时 的 
数据 。 很 明显 , 当 人 们 被 数据 淹没 的 时 候 , 已 有 的 数据 处 理工 具 已 经 难以 应 付 了 ,所 以 就 
需要 有 新 技术 。 后 来 ,美国 人 口 普查 局 就 和 美国 发 明 家 赫 尔 曼 。 截 尔 瑞 斯 (被 称 为 现代 自 
动 计算 之 父 ) 签 订 了 一 个 协议 ,用 他 的 穿孔 
卡片 制 表 机 (图 4-3) 来 完成 1890 年 的 人 口 
普查 。 
经 过 大 量 的 努力 , 霍 尔 瑞 斯 成 功 地 在 一 
年 时 间 内 完成 了 人 口 普查 的 数据 汇总 工作 。 
这 简直 就 是 一 个 奇迹 , 它 标 志 着 自动 处 理 数 
据 的 开端 ,也 为 后 来 IBM 公司 的 成 立 黄 定 
了 基础 。 但 是 ,将 其 作为 收集 处 理 大 数据 的 
图 4-3 ” 址 尔 瑞 斯 普查 机 方法 依然 过 于 昂贵 。 毕 竟 ,每 个 美国 人 都 必 
须 填 一 张 可 制 成 穿孔 卡片 的 表格 ,然后 再 进 
行 统 计 。 这 么 麻烦 的 情况 下 ,很 难 想象 如 果 不 足 10 年 就 要 进行 一 次 人 口 普查 应 该 怎么 
办 。 对 于 一 个 跨越 式 发 展 的 国家 而 言 ,10 年 一 次 的 人 口 普查 的 滞后 性 已 经 让 普查 失去 了 
大 部 分 意义 。 
这 就 是 问题 所 在 ,是 利用 所 有 的 数据 还 是 仅 采 用 一 部 分 呢 ? 最 明智 的 自然 是 得 到 有 
关 被 分 析 事 物 的 所 有 数据 ,但 是 当 数 量 无 比 庞 大 时 ,这 又 不 太 现 实 。 那 如 何 选择 样本 呢 ? 
有 人 提出 有 目的 地 选择 最 具 代 表 性 的 样本 是 最 恰当 的 方法 。1934 年 ,波兰 统计 学 家 耶 
日 。 奈 曼 指出 ,这 只 会 导致 更 多 更 大 的 漏洞 。 事 实证 明 ,问题 的 关键 是 选择 样本 时 的 随 
机 性 。 
统计 学 家 们 证 明 : 采样 分 析 的 精确 性 随 着 采样 随机 性 的 增加 而 大 幅 提 高 ,但 与 样本 
数量 的 增加 关系 不 大 。 虽 然 听 起 来 很 不 可 思议 ,但 事实 上 ,研究 表明 , 当 样 本 数量 达到 了 
某 个 值 之 后 ,我 们 从 新 个 体 身 上 得 到 的 信息 会 越 来 越 少 ,就 如 同 经 济 学 中 的 边际 效应 递减 
一 样 。 
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认为 样本 选择 的 随机 性 比 样本 数量 更 重要 ,这 种 观点 是 非常 有 见地 的 。 这 种 观点 为 
我 们 开辟 了 一 条 收集 信息 的 新 道路 。 通 过 收集 随机 样本 ,可 以 用 较 少 的 花费 做 出 高 精准 
度 的 推断 。 因 此 ,政府 每 年 都 可 以 用 随机 采样 的 方法 进行 小 规模 的 人 口 普 查 , 而 不 是 只 
每 10 年 进行 一 次 。 事 实 上 ,政府 也 这 样 做 了 。 例 如 ,除了 10 年 一 次 的 人 口 大 普查 ,美国 
人 口 普查 局 每 年 都 会 用 随机 采样 的 方法 对 经 济 和 人 口 进行 二 百 多 次 小 规模 的 调查 。 当 收 
集 和 分 析 数 据 都 不 容易 时 ,随机 采样 就 成 为 应 对 信息 采集 困难 的 办 法 。 

在 商业 领域 ,随机 采样 被 用 来 监管 商品 质量 。 这 使 得 监管 商品 质量 和 提升 商品 品质 
变 得 更 容易 ,花费 也 更 少 。 以 前 ,全 面 的 质量 监管 要 求 对 生产 出 来 的 每 个 产品 进行 检查 ， 
而 现在 只 需 从 一 批 商品 中 随机 抽取 部 分 样品 进行 检查 就 可 以 了 。 本 质 上 来 说 ,随机 采样 
让 大 数据 问题 变 得 更 加 切实 可 行 。 同 理 , 它 将 客户 调查 引进 了 和 零售 行业 ,将 焦点 讨论 引进 
了 政治 界 ,也 将 许多 人 文 问题 变 成 了 社会 科学 问题 。 

随机 采样 取得 了 巨大 的 成 功 ,成 为 现代 社会 .现代 测量 领域 的 主心骨 。 但 这 只 是 一 条 
捷径 ,是 在 不 可 收集 和 分 析 全 部 数据 的 情况 下 的 选择 , 它 本 身 存在 许多 固有 的 缺陷 。 它 的 
成 功 依赖 于 采样 的 绝对 随机 性 ,但 是 实现 采样 的 随机 性 非常 困难 。 一 旦 采样 过 程 中 存在 
任何 偏见 ,分 析 结 果 就 会 相去 甚 远 。 

在 美国 总 统 大 选中 ,以 固定 电话 用 户 为 基础 进行 投票 民 调 就 面临 了 这 样 的 问题 ,采样 
缺乏 随机 性 ,因为 没有 考虑 到 只 使 用 移动 电话 的 用 户 一 一 这 些 用 户 一 般 更 年 轻 和 更 热爱 
自由 ,不 考虑 这 些 用 户 ,自然 就 得 不 到 正确 的 预测 。2008 年 在 奥巴马 与 麦 凯 恩 之 间 进 行 
的 美国 总 统 大 选中 , 盖 洛 普 咨 询 公司 、 皮 尤 研究 中 心 、 美 国 广播 公司 和 《华盛顿 邮 报 ?报社 
这 些 主要 的 民 调 组 织 都 发 现 ,如 果 不 把 移动 用 户 考 虑 进来 ,民意 测试 的 结果 就 会 出 现 三 个 
点 的 偏差 ,而 一 旦 考虑 进来 ,偏差 就 只 有 一 个 点 。 鉴 于 这 次 大 选 的 票数 差距 极其 微弱 ,这 
已 经 是 非常 大 的 偏差 了 。 

更 糟糕 的 是 ,随机 采样 不 适合 考察 子 类 别 的 情况 。 因 为 一 旦 继续 细 分 ,随机 采样 结果 
的 错误 率 会 大 大 增加 。 因 此 , 当 人 们 想 了 解 更 深层 次 的 细 分 领域 的 情况 时 ,随机 采样 的 方 
法 就 不 可 取 了 。 在 宏观 领域 起 作用 的 方法 在 微观 领域 失去 了 作用 。 随 机 采样 就 像 是 模拟 
照片 打印 , 远 看 很 不 错 , 但 是 一 旦 聚焦 某 个 点 ,就 会 变 得 模糊 不 清 。 

随机 采样 也 需要 严密 的 安排 和 执行 。 人 们 只 能 从 采样 数据 中 得 出 事先 设计 好 的 问题 
的 结果 。 所 以 虽说 随机 采样 是 一 条 捷径 ,但 它 并 不 适用 于 一 切 情况 ,因为 这 种 调查 结果 缺 
乏 延 展 性 , 即 调查 得 出 的 数据 不 可 以 重新 分 析 以 实现 计划 之 外 的 目的 。 


4.2.2 大 数据 与 乔布斯 的 癌 证 治疗 


我 们 来 看 一 下 DNA 分 析 。 由 于 技术 成 本 大 幅 下 跌 以 及 在 医学 方面 的 广阔 前 景 ,个 
人 基因 排序 成 为 一 门 新 兴 产 业 ( 图 4-4)。 从 2007 年 起 ,硅谷 的 新 兴 科 技 公司 23andMe 就 
开始 分 析 人 类 基因 ,价格 仅 为 几 百 美元 。 这 可 以 揭示 出 人 类 遗传 密码 中 一 些 会 导致 其 对 
某 些 疾 病 抵 抗力 差 的 特征 ,如 乳腺 癌 和 心脏 病 。23andMe 希望 能 通过 整合 顾客 的 DNA 
和 健康 信息 ,了 解 到 用 其 他 方式 不 能 获取 的 新 信息 。 公 司 对 某 人 的 一 小 部 分 DNA 进行 
排序 ,标注 出 几 十 个 特定 的 基因 缺陷 。 这 只 是 该 人 整个 基因 密码 的 样本 ,还 有 几 十 亿 个 基 
因 碱 基 对 未 排序 。 最 后 ,23andMe 只 能 回答 其 标注 过 的 基因 组 表现 出 来 的 问题 。 发 现 新 


标注 时 ,该 人 的 DNA 必须 重新 排序 ,更 准确 地 说 ,是 相关 的 部 分 必须 重新 排列 。 只 研究 
样本 而 不 是 整体 ,有 利 有 弊 : 能 更 快 更 容易 地 发 现 问题 ,但 不 能 回答 事先 未 考虑 到 的 
问题 。 
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图 4-4 世界 民族 基因 总 图 (美国 


苹果 公司 的 传奇 总 裁 史 蒂 夫 “乔布斯 在 与 癌症 斗争 的 过 程 中 采用 了 不 同 的 方式 ,成 
为 世界 上 第 一 个 对 自身 所 有 DNA 和 肿瘤 DNA 进行 排序 的 人 。 为 此 ,他 支付 了 高 达 几 十 
万 美元 的 费用 ,这 是 23andMe 报价 的 几 百 倍 之 多 。 所 以 ,他 得 到 的 不 是 一 个 只 有 一 系列 
标记 的 样本 ,他 得 到 了 包括 整个 基因 密码 的 数据 文档 。 

对 于 一 个 普通 的 癌症 患者 ,医生 只 能 期 望 他 的 DNA 排列 同 试验 中 使 用 的 样本 足够 
相似 。 但 是 , 史 蒂 夫 ，。 乔布斯 的 医生 们 能 够 基于 乔布斯 的 特定 基因 组 成 , 按 所 需 效果 用 
药 。 如 果 癌 症 病变 导致 药物 失效 ,医生 可 以 及 时 更 换 另 一 种 药 。 乔 布 斯 曾经 开玩笑 地 说 : 
“我 要 么 是 第 一 个 通过 这 种 方式 战胜 癌症 的 人 ,要 么 就 是 最 后 一 个 因为 这 种 方式 死 于 癌症 
的 人 。" 虽 然 他 的 愿望 都 没有 实现 ,但 是 这 种 获得 所 有 数据 而 不 仅 是 样本 的 方法 还 是 将 他 
的 生命 延长 了 好 几 年 。 


4.2.3 全 数据 模式 : 样本 三 总 体 


采样 的 目的 是 用 最 少 的 数据 得 到 最 多 的 信息 ,而 当 我 们 可 以 获得 海量 数据 的 时 候 , 它 
就 没有 什么 意义 了 。 如 今 , 计 算 和 制 表 不 再 像 过 去 一 样 困难 。 感 应 器 .手机 导航 、 网 站 点 
击 和 微 信 等 被 动 地 收集 了 大 量 数据 ,而 计算 机 可 以 轻易 地 对 这 些 数 据 进行 处 理 。 但 是 , 数 
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据 处 理 技术 己 经 发 生 了 翻天 覆 地 的 改变 ,但 人 们 的 方法 和 思维 却 没 有 跟 上 这 种 改变 。 

采样 忽视 细节 考察 的 缺陷 现在 越 来 越 难以 被 忽视 了 。 在 很 多 领域 ,从 收集 部 分 数据 
到 收集 尽 可 能 多 的 数据 的 转变 已 经 发 生 了 。 如 果 可 能 的 话 , 我 们 会 收集 所 有 的 数据 , 即 
“样本 一 总 体 ”。 

“样本 一 总 体 ? 是 指 我 们 能 对 数据 进行 深度 探讨 。 在 上 面 提 到 的 有 关 采 样 的 例子 中 ， 
用 采样 的 方法 分 析 情 况 ,正确 率 可 达 97%。 对 于 某 些 事物 来 说 ,3% 的 错误 率 是 可 以 接受 
的 。 但 是 你 无 法 得 到 一 些微 观 细节 的 信息 ,甚至 还 会 失去 对 某 些 特定 子 类 别 进行 进一步 
研究 的 能 力 。 我 们 不 能 满足 于 正 态 分 布 一 般 中 良平 凡 的 景象 。 生 活 中 有 很 多 事情 经 常 藏 
匿 在 细节 之 中 ,而 采样 分 析 法 却 无 法 捕捉 到 这 些 细节 。 

谷歌 流感 趋势 预测 (参见 第 5 章 的 皂 导读 案例 大 数据 变革 公共 卫生 ”) 不 是 依赖 于 随 
机 样本 ,而 是 分 析 了 全 美国 几 十 亿 条 互联 网 检索 记录 。 分 析 整 个 数据 库 ,而 不 是 对 一 个 小 
样本 进行 分 析 , 能 够 提高 微观 层面 分 析 的 准确 性 ,甚至 能 够 推测 出 某 个 特定 城市 的 流感 状 
况 。 所 以 ,我 们 现在 经 常会 放弃 样本 分 析 这 条 捷径 ,选择 收集 全 面 而 完整 的 数据 。 我 们 需 
要 足够 的 数据 处 理 和 存储 能 力 , 也 需要 最 先进 的 分 析 技 术 。 同 时 ,简单 廉价 的 数据 收集 方 
法 也 很 重要 。 过 去 ,这 些 问题 中 的 任何 一 个 都 很 棘手 。 在 一 个 资源 有 限 的 时 代 , 要 解决 这 
些 问题 需要 付出 很 高 的 代价 。 但 是 现在 ,解决 这 些 难题 已 经 变 得 简单 容易 得 多 。 曾 经 只 
有 大 公司 才能 做 到 的 事情 ,现在 绝 大 部 分 的 公司 都 可 以 做 到 了 。 

通过 使 用 所 有 的 数据 ,可 以 发 现 如 若 不 然则 将 会 在 大 量 数 据 中 淹没 掉 的 情况 。 例 如 ， 
信用 卡 诈骗 是 通过 观察 异常 情况 来 识别 的 ,只 有 掌握 了 所 有 的 数据 才能 做 到 这 一 点 。 在 
这 种 情况 下 ,异常 值 是 最 有 用 的 信息 ,可 以 把 它 与 正常 交易 情况 进行 对 比 。 这 是 一 个 大 数 
据 问题 。 而 且 , 因 为 交易 是 即时 的 ,所 以 数据 分 析 也 应 该 是 即时 的 。 

然而 ,使 用 所 有 的 数据 并 不 代表 这 是 一 项 艰巨 的 任务 。 大 数据 中 的 “大 ”不 是 绝对 意 
义 上 的 大 ,虽然 在 大 多 数 情况 下 是 这 个 意思 。 谷 歌 流感 趋势 预测 建立 在 数 亿 的 数学 模型 
上 ,而 它们 又 建立 在 数 十 亿 数 据 节点 的 基础 之 上 。 完 整 的 人 体 基 因 组 有 约 30 亿 个 碱 基 
对 。 但 这 只 是 单纯 的 数据 节点 的 绝对 数量 ,不 代表 它们 就 是 大 数据 。 大 数据 是 指 不 用 随 
机 分 析 法 这 样 的 捷径 ,而 采用 所 有 数据 的 方法 。 谷 歌 流感 趋势 和 乔布斯 的 医生 们 采取 的 
就 是 大 数据 的 方法 。 

因为 大 数据 是 建立 在 掌握 所 有 数据 ,至 少 是 尽 可 能 多 的 数据 的 基础 上 的 ,所 以 我 们 就 
可 以 正确 地 考察 细节 并 进行 新 的 分 析 。 在 任何 细微 的 层面 ,都 可 以 用 大 数据 去 论证 新 的 
假设 。 是 大 数据 让 我 们 发 现 了 流感 的 传播 区 域 和 对 抗 癌症 需要 针对 的 那 部 分 DNA。 它 
让 我 们 能 清楚 分 析 微 观 层面 的 情况 。 

当然 ,有 些 时 候 . 还 是 可 以 使 用 样本 分 析 法 , 毕 竞 我 们 仍然 活 在 一 个 资源 有 限 的 时 代 。 
但 是 更 多 时 候 , 利 用 手中 掌握 的 所 有 数据 成 为 最 好 也 是 可 行 的 选择 。 

社会 科学 是 被 “样本 一 总 体 ” 撼 动 得 最 厉害 的 学 科 。 随 着 大 数据 分 析 取 代 了 样本 分 
析 ,社会 科学 不 再 单纯 依赖 于 分 析 实 证 数据 。 这 门 学 科 过 去 曾 非常 依赖 样本 分 析 、 研 究 和 
调查 问卷 。 当 记录 下 来 的 是 人 们 的 平常 状态 ,也 就 不 用 担心 在 做 研究 和 调查 问卷 时 存在 
的 偏见 了 。 现 在 ,我 们 可 以 收集 过 去 无 法 收集 到 的 信息 ,不管 是 通过 移动 电话 表现 出 的 关 
系 , 还 是 通过 推 特 信 息 表现 出 的 感情 。 更 重要 的 是 ,我 们 现在 也 不 再 依赖 抽样 调查 了 。 


大 数 揭 号 和 论 


我 们 总 是 习惯 把 统计 抽样 看 作文 明 得 以 建立 的 牢固 基石 ,就 如 同 几 何 学 定理 和 万 有 
引力 定律 一 样 。 但 是 统计 抽样 其 实 只 是 为 了 在 技术 受 限 的 特定 时 期 ,解决 当时 存在 的 一 
些 特定 问题 而 产生 的 ,其 历史 尚 不 足 一 百年 。 如 今 ,技术 环境 已 经 有 了 很 大 的 改善 。 在 大 
数据 时 代 进 行 抽样 分 析 就 像 是 在 汽车 时 代 骑 马 一 样 。 在 某 些 特定 的 情况 下 ,我 们 依然 可 
以 使 用 样本 分 析 法 ,但 这 不 再 是 我 们 分 析 数 据 的 主要 方式 。 慢 慢 地 ,我 们 会 完全 抛弃 样本 
分 析 。 


43 转变 之 二 : 接受 数据 的 混杂 性 


大 数据 时 代 的 第 二 个 转变 ,是 我 们 乐于 接受 数据 的 纷繁 复杂 ,而 不 再 一 味 追 求 其 精确 
性 。 在 越 来 越 多 的 情况 下 ,使 用 所 有 可 获取 的 数据 变 得 更 为 可 能 .但 为 此 也 要 付出 一 定 的 
代价 。 数 据 量 的 大 幅 增加 会 造成 结果 的 不 准确 ,与 此 同时 ,一 些 错 误 的 数据 也 会 混 进 数 据 
库 。 然 而 ,重点 是 我 们 能 够 努力 避免 这 些 问题 。 我 们 从 不 认为 这 些 问题 是 无 法 避免 的 ,而 
且 也 正在 学 会 接受 它们 。 


4.3.1 人 允许 不 精确 


对 “小 数据 ”而 言 , 最 基本 、 最 重要 的 要 求 就 是 减少 错误 ,保证 质量 。 因 为 收集 的 信息 
量 比较 少 ,所 以 必须 确保 记录 下 来 的 数据 尽量 精确 。 无 论 是 确定 天 体 的 位 置 还 是 观测 显 
微 镜 下 物体 的 大 小 ,为 了 使 结果 更 加 准确 ,很 多 科学 家 都 致力 于 优化 测量 的 工具 。 在 采样 
的 时 候 , 对 精确 度 的 要 求 就 更 高 更 苛刻 了 。 因 为 收集 信息 的 有 限 意味 着 细微 的 错误 会 被 
放大 ,甚至 有 可 能 影响 整个 结果 的 准确 性 。 

历史 上 很 多 时 候 , 人 们 会 把 通过 测量 世界 来 征服 世界 视 为 最 大 的 成 就 。 事实 上 ,对 精 
确 度 的 高 要 求 始 于 13 世纪 中 期 的 欧洲 。 那 时 候 .天 文学 家 和 学 者 对 时 间 、 空 间 的 研究 采 
取 了 比 以 往 更 为 精确 的 量化 方式 ,用 历史 学 家 阿尔 弗 雷 德 。 克 罗斯 比 的话 来 说 就 是 “测量 
现实 "。 后 来 ,测量 方法 逐渐 被 运用 到 科学 观察 .解释 方法 中 ,体现 为 一 种 进行 量化 研究 、 
记录 ,并 呈现 可 重复 结果 的 能 力 。 伟 大 的 物理 学 家 开尔文 男 画 曾 说 过 :“ 测 量 就 是 认 知 。” 
这 已 成 为 一 条 至 理 名 言 。 同 时 ,很 多 数学 家 以 及 后 来 的 精算 师 和 会 计 师 都 发 展 了 可 以 准 
确 收集 .记录 和 管理 数据 的 方法 。 

然而 ,在 不 断 涌现 的 新 情况 里 ,允许 不 精确 的 出 现 已 经 成 为 一 个 亮点 ,而 非 缺 点 。 因 
为 放松 了 容错 的 标准 ,人 们 人 掌握 的 数据 也 多 了 起 来 ,还 可 以 利用 这 些 数 据 做 更 多 新 的 事 
情 。 这 样 就 不 是 大 量 数据 优 于 少量 数据 那么 简单 了 ,而 是 大 量 数据 创造 了 更 好 的 结果 。 

同时 ,我 们 需要 与 各 种 各 样 的 混乱 做 斗争 。 混乱, 简单 地 说 就 是 随 着 数据 的 增加 , 错 
误 率 也 会 相应 增加 。 所 以 ,如 果 桥 梁 的 压力 数据 量 增加 1000 倍 的 话 , 其 中 的 部 分 读数 就 
可 能 是 错误 的 ,而 且 随 着 读数 量 的 增加 ,错误 率 可 能 也 会 继续 增加 。 在 整合 来 源 不 同 的 各 
类 信息 的 时 候 ,因为 它们 通常 不 完全 一 致 ,所 以 也 会 加 大 混乱 程度 。 

混乱 还 可 以 指 格式 的 不 一 致 性 ,因为 要 达到 格式 一 致 ,就 需要 在 进行 数据 处 理 之 前 仔 
细 地 清洗 数据 ,而 这 在 大 数据 背景 下 很 难 做 到 。 例 如 ,I B. M.、T.J. Watson Labs、 
International Business Machines 都 可 以 用 来 指 代 IBM, 甚 至 可 能 有 成 千 上 万 种 方法 称 
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呼 IBM。 

当然 ,在 萃取 或 处 理 数据 的 时 候 , 混 乱 也 会 发 生 。 因 为 在 进行 数据 转化 的 时 候 , 我 们 
是 在 把 它 变 成 另外 的 事物 。 比 如 ,假设 要 测量 一 个 葡萄 园 的 温度 ,但 是 整个 葡萄 园 只 有 
一 个 温度 测量 仪 , 那 就 必须 确保 这 个 测量 仪 是 精确 的 而 且 能 够 一 直 工 作 。 反 过 来 ,如 果 每 
100 棵 葡萄 树 就 有 一 个 测量 仪 , 有 些 测 试 的 数据 可 能 会 是 错误 的 ,可 能 会 更 加 混乱 ,但 众 
多 的 读数 合 起 来 就 可 以 提供 一 个 更 加 准确 的 结果 。 因 为 这 里 面包 含 更 多 的 数据 ,而 它 不 
仅 能 抵消 掉 错误 数据 造成 的 影响 ,还 能 提供 更 多 的 额外 价值 。 

再 来 想 想 增加 读数 频率 的 这 个 事情 。 如 果 每 隔 一 分 钟 就 测量 一 下 温度 ,我 们 至 少 还 
能 够 保证 测量 结果 是 按照 时 间 有 序 排列 的 。 如 果 变 成 每 分 钟 测量 十 次 甚至 百 次 的 话 ,不 
仅 读 数 可 能 出 错 , 连 时 间 先 后 都 可 能 搞 混 掉 。 试 想 , 如 果 信 息 在 网 络 中 流动 ,那么 一 条 记 
录 很 可 能 在 传输 过 程 中 被 延迟 ,在 其 到 达 的 时 候 已 经 没有 意义 了 ,甚至 干脆 在 奔涌 的 信息 
洪流 中 彻底 迷失 。 虽 然 我 们 得 到 的 信息 不 再 那么 准确 ,但 收集 到 的 数量 庞大 的 信息 让 我 
们 放弃 严格 精确 的 选择 变 得 更 为 划算 。 

可 见 , 为 了 获得 更 广泛 的 数据 而 牺牲 了 精确 性 ,也 因此 看 到 了 很 多 如 若 不 然 无 法 被 关 
注 到 的 细节 。 或 者 ,为 了 高 频率 而 放弃 了 精确 性 ,结果 观察 到 了 一 些 本 可 能 被 错过 的 变 
化 。 虽 然 如 果 我 们 能 够 下 足够 多 的 工夫 ,这 些 错 误 是 可 以 避免 的 ,但 在 很 多 情况 下 ,与 至 
力 于 避免 错误 相 比 ,对 错误 的 包容 会 带 给 我 们 更 多 好 处 。 

“大 数据 ”通常 用 概率 说 话 。 我 们 可 以 在 大 量 数据 对 计算 机 其 他 领域 进步 的 重要 性 上 
看 到 类 似 的 变化 。 我 们 都 知道 ,如 摩尔 定律 所 预测 的 ,过 去 一 段 时 间 里 计算 机 的 数据 处 理 
能 力 得 到 了 很 大 的 提高 。 摩 尔 定律 认为 ,每 块 芯片 上 品 体 管 的 数量 每 两 年 就 会 翻 一 倍 。 
这 使 得 计算 机 运行 更 快速 了 ,存储 空间 更 大 了 。 大 家 没有 意识 到 的 是 ,驱动 各 类 系统 的 算 
法 也 进步 了 ,有 报告 显示 ,在 很 多 领域 这 些 算法 带 来 的 进步 还 要 胜 过 芯片 的 进步 。 然 而 ， 
社会 从 * 大 数据 ”中 所 能 得 到 的 ,并 非 来 自 运行 更 快 的 芯片 或 更 好 的 算法 ,而 是 更 多 的 
数据 。 

由 于 象棋 的 规则 家 喻 户 晓 , 且 走 子 限制 良 多 ,在 过 去 的 几 十 年 里 ,象棋 算法 的 变化 很 
小 。 计 算 机 象棋 程序 总 是 步 步 为 赢 是 由 于 对 残局 掌握 得 更 好 了 ,而 之 所 以 能 做 到 这 一 点 
也 只 是 因为 往 系统 里 加 入 了 更 多 的 数据 。 实 际 上 , 当 棋 盘 上 只 剩 下 6 枚 棋子 或 更 少 的 时 
候 ,这 个 残局 得 到 了 全 面 的 分 析 , 并 且 接 下 来 所 有 可 能 的 走 法 (样本 二 总体) 都 被 制 人 了 一 
个 庞大 的 数据 表格 。 这 个 数据 表格 如 果 不 压 缩 的 话 , 会 有 1TB 那么 多 。 所 以 ,计算 机 在 
这 些 重 要 的 象棋 残局 中 表现 得 完美 无 缺 和 不 可 战胜 。 

大 数据 在 多 大 程度 上 优 于 算法 ,这 个 问题 在 自然 语言 处 理 上 表现 得 很 明显 (这 是 关于 


@ 温度 是 葡萄 生长 发 育 的 重要 因素 。 葡 萄 是 温带 植物 ,对 热量 要 求 高 ,但 不 同 发 育 阶 段 对 温度 的 要 求 不 同 。 当 
气温 升 到 10C 以 上 时 ,欧洲 品种 先 开 始 萌芽 。 新 梢 生长 的 最 适 温度 为 25 一 30C ;开花 期 的 最 适 温度 为 20 一 28Y ,品种 
间 稍 有 差异 ,夜间 最 低温 不 低 于 14YC ,否则 授粉 受精 不 良 ; 浆 果 生 长 不 低 于 20T , 低 于 20Y ,浆果 生长 缓慢 ,成 熟 期 推 
迟 ; 果 实 成 熟 期 为 25 一 30'C , 当 低 于 14 人 时 不 能 正常 成 熟 , 成 熟 期 的 异 夜 温差 应 大 于 10C ,这 样 有 利于 糖分 的 积累 和 
品质 的 提高 。 生 长 期 温度 高 于 40C ,对 葡萄 会 造成 伤害 。 零 下 5C 以 下 低温 根部 会 受 冻 。 葡 萄 的 生长 发 育 还 受 大 于 
10C 以 上 活动 积温 的 影响 。 不 同 成 熟 期 的 品种 对 活动 积温 的 要 求 不 同 。 在 露地 条 件 下 ,寒冷 地 区 由 于 活动 积温 量 低 ， 
晚熟 和 极 晚 熟 品种 不 能 正常 成 熟 , 只 能 栽植 早熟 和 中 熟 品种 。 在 温室 条 件 下 可 不 受 此 限制 。 
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计算 机 如 何 学 习 和 领悟 我 们 在 日 常生 活 中 使 用 语言 的 学 科 方 向 )。2000 年 ,微软 研究 中 
心 的 米 软 尔 。 班 科 和 埃 里 克 。… 布 里 尔 一 直 在 寻求 改进 Word 程序 中 语法 检查 的 方法 。 但 
是 他 们 不 能 确定 是 努力 改进 现 有 的 算法 、 研 发 新 的 方法 ,还 是 添加 更 加 细腻 精致 的 特点 更 
有 效 。 所 以 ,在 实施 这 些 措 施 之 前 ,他 们 决定 往 现 有 的 算法 中 添加 更 多 的 数据 ,看 看 会 有 
什么 不 同 的 变化 。 很 多 对 计算 机 学 习 算 法 的 研究 都 建立 在 百 万 字 左 右 的 语料库 基础 上 。 
最 后 ,他 们 决定 往 4 种 常见 的 算法 中 逐渐 添加 数据 ,先是 一 千 万 字 , 再 到 一 亿 字 ,最 后 到 
十 亿 。 

结果 有 点 儿 令 人 上 吃惊。 他们 发 现 , 随 着 数据 的 增多 ,4 种 算法 的 表现 都 大 幅 提高 了 。 
当 数 据 只 有 500 万 的 时 候 , 有 一 种 简单 的 算法 表现 得 很 差 , 但 当 数据 达 10 亿 的 时 候 , 它 变 
成 了 表现 最 好 的 ,准确 率 从 原来 的 75% 提 高 到 了 95% 以 上 。 与 之 相反 的 ,在 少量 数据 情 
况 下 运行 得 最 好 的 算法 , 当 加 入 更 多 的 数据 时 ,也 会 像 其 他 的 算法 一 样 有 所 提高 ,但 是 却 
变 成 了 在 大 量 数据 条 件 下 运行 得 最 不 好 的 。 它 的 准确 率 会 从 86% 提 高 到 94%。 

后 来 , 班 科 和 布 里 尔 在 他 们 发 表 的 研究 论文 中 写 到 ,“ 如 此 一 来 ,我 们 得 重新 衡量 一 下 
更 多 的 人 力 物力 是 应 该 消耗 在 算法 发 展 上 还 是 在 语料库 发 展 上 。” 


4.3.2 大 数据 的 简单 算法 与 小 数据 的 复杂 算法 


20 世纪 40 年 代 , 计 算 机 由 真空 管制 成 ,要 占据 整个 房间 这 么 大 的 空间 。 而 机 器 翻译 
也 只 是 计算 机 开发 人 员 的 一 个 想法 。 在 冷战 时 期 ,美国 掌握 了 大 量 关 于 前 苏联 的 各 种 资 
料 , 但 缺少 翻译 这 些 资料 的 人 员 。 所 以 ,计算 机 翻译 也 成 了 吸 待 解决 的 问题 。 

最 初 ,计算 机 研发 人 员 打算 将 语法 规则 和 双语 词典 结合 在 一 起 。1954 年 ,IBM 以 计 
算 机 中 的 250 个 词语 和 6 条 语法 规则 为 基础 ,将 60 个 俄语 词组 翻译 成 了 英语 ,结果 振奋 
人 心 。IBM 701 通过 穿孔 卡片 读 取 了 一 句 话 , 并 将 其 译 成 了 “我 们 通过 语言 来 交流 思想 ”。 
在 庆祝 这 个 成 就 的 发 布 会 上 ,一 篇 报道 就 有 提 到 ,这 60 句 话 翻译 得 很 流畅 。 这 个 程序 的 
指挥 官 利 晶 。 多 斯 特 尔 特 表 示 , 他 相信 “在 三 五 年 后 ,机 器 翻译 将 会 变 得 很 成 熟 ”。 

事实 证 明 , 计 算 机 翻译 最 初 的 成 功 误导 了 人 们 。1966 年 ,一 群 机 器 翻译 的 研究 人 员 
意识 到 ,翻译 比 他们 想象 的 更 困难 ,他 们 不 得 不 承认 自己 的 失败 。 机 器 翻译 不 能 只 是 让 计 
算 机 熟悉 常用 规则 ,还 必须 教会 计算 机 处 理 特殊 的 语言 情况 。 毕 竞 , 翻 译 不 只 是 记忆 和 复 
述 , 也 涉及 选 词 ,而 明确 地 教会 计算 机 这 些 非常 不 现实 。 

在 20 世纪 80 年 代 后 期 ,IBM 的 研发 人 员 提 出 了 一 个 新 的 想法 。 与 单纯 教 给 计算 机 
语言 规则 和 词汇 相 比 ,他 们 试图 让 计算 机 自己 估算 一 个 词 或 一 个 词组 适合 于 用 来 翻译 另 
一 种 语言 中 的 一 个 词 和 词组 的 可 能 性 ,然后 再 决定 某 个 词 和 词组 在 另 一 种 语言 中 的 对 等 
词 和 词组 。 

20 世纪 90 年 代 ,IBM 这 个 名 为 Candide 的 项 目 花费 了 大 概 十 年 的 时 间 , 将 大 约 有 
300 万 名 之 多 的 加 拿 大 议会 资料 译 成 了 英语 和 法 语 并 出 版 。 由 于 是 官方 文件 ,翻译 的 标 
准 就 非常 高 。 用 那个 时 候 的 标准 来 看 ,数据 量 非常 庞大 。 统 计 机 器 学 习 从 诞生 之 日 起 ,就 
聪明 地 把 翻译 的 挑战 变 成 了 一 个 数学 问题 ,而 这 似乎 很 有 效 ! 计算 机 翻译 能 力 在 短 时 间 
内 就 提高 了 很 多 。 然 而 ,在 这 次 飞跃 之 后 ,IBM 公司 尽管 投入 了 很 多 资金 ,但 取得 的 成 效 
不 大 。 最 终 ,IBM 公司 停止 了 这 个 项 目 。 
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2006 年 ,谷歌 公司 也 开始 涉足 机 器 翻译 。 这 被 当 作 实 现 “ 收 集 全 世界 的 数据 资源 ,并 
让 人 人 都 可 享受 这 些 资源 ”这 个 目标 的 一 个 步骤 。 谷 歌 翻译 开始 利用 一 个 更 大 更 繁杂 的 
数据 库 , 也 就 是 全 球 的 互联 网 ,而 不 再 只 利用 两 种 语言 之 间 的 文本 翻译 。 

为 了 训练 计算 机 ,谷歌 翻译 系统 会 吸收 它 能 找到 的 所 有 翻译 。 它 会 从 各 种 各 样 语言 
的 公司 网 站 上 寻找 对 译文 档 , 还 会 去 寻找 联合 国 和 欧盟 这 些 国际 组 织 发 布 的 官方 文件 和 
报告 的 译本 。 它 甚至 会 吸收 速 读 项 目 中 的 书籍 翻译 。 谷 歌 翻译 部 的 负责 人 弗 朗 效 ， 奥 齐 
是 机 器 翻译 界 的 权威 ,他 指出 “谷歌 的 翻译 系统 不 会 像 Candide 一 样 只 是 仔细 地 翻译 
300 万 句 话 , 它 会 掌握 用 不 同 语言 翻译 的 质量 参差 不 齐 的 数 十 亿 页 的 文档 "不 考虑 翻译 
质量 的 话 , 上 万 亿 的 语料库 就 相当 于 950 亿 句 英语 。 

尽管 其 输入 源 很 混乱 ,但 较 其 他 翻译 系统 而 言 ,谷歌 的 翻译 质量 相对 而 言 还 是 最 好 
的 ,而 且 可 翻译 的 内 容 更 多 。 到 2012 年 年 中 ,谷歌 数据 库 涵盖 了 六 十 多 种 语言 ,甚至 能 够 
接受 14 种 语言 的 语音 输入 ,并 有 很 流利 的 对 等 翻译 。 之 所 以 能 做 到 这 些 ,是 因为 它 将 语 
言 视 为 能 够 判别 可 能 性 的 数据 ,而 不 是 语言 本 身 。 如 果 要 将 印度 语 译 成 加 泰 罗 尼 亚 语 , 谷 
歌 就 会 把 英语 作为 中 介 语言 。 因 为 在 翻译 的 时 候 它 能 适当 增 减 词汇 ,所 以 谷歌 的 翻译 比 
其 他 系统 的 翻译 灵活 很 多 。 

谷歌 的 翻译 之 所 以 更 好 并 不 是 因为 它 拥 有 一 个 更 好 的 算法 机 制 。 和 微软 的 班 科 和 布 
里 尔 一 样 , 这 是 因为 谷歌 翻译 增加 了 很 多 各 种 各 样 的 数据 。 从 谷歌 的 例子 来 看 , 它 之 所 以 
能 比 IBM 的 Candide 系统 多 利用 成 千 上 万 的 数据 ,是 因为 它 接受 了 有 错误 的 数据 。2006 
年 ,谷歌 发 布 的 上 万 亿 的 语料库 ,就 是 来 自 于 互联 网 的 一 些 废弃 内 容 。 这 就 是 “训练 集 ”， 
可 以 正确 地 推算 出 英语 词汇 搭配 在 一 起 的 可 能 性 。 

谷歌 公司 人 工 智 能 专家 彼得 。 诺 维 格 在 一 篇 题 为 4 数据 的 非 理 性 效果 》 的 文章 中 写 
道 ,“ 大 数据 基础 上 的 简单 算法 比 小 数据 基础 上 的 复杂 算法 更 加 有 效 ,” 他 们 指出 ,混杂 是 
关键 。 

“由 于 谷歌 语料库 的 内 容 来 自 于 未 经 过 滤 的 网 页 内 容 , 所 以 会 包含 一 些 不 完整 的 句 
子 ,拼写 错 误 、 语 法 错误 以 及 其 他 各 种 错误 。 况且. 它 也 没有 详细 的 人 工 纠 错 后 的 注解 。 
但 是 ,谷歌 语料库 的 数据 优势 完全 压倒 了 缺点 。” 


4.3.3 纷繁 的 数据 越 多 越 好 


通常 传统 的 统计 学 家 都 很 难 容忍 错误 数据 的 存在 ,在 收集 样本 的 时 候 , 他 们 会 用 一 整 
套 的 策略 来 减少 错误 发 生 的 概率 。 在 结果 公布 之 前 ,他 们 也 会 测试 样本 是 否 存在 潜在 的 
系统 性 偏差 。 这 些 策 略 包 括 根据 协议 或 通过 受过 专门 训练 的 专家 来 采集 样本 。 但 是 , 即 
使 只 是 少量 的 数据 ,这 些 规避 错误 的 策略 实施 起 来 还 是 耗费 巨大 。 尤 其 是 当 我 们 收集 所 
有 数据 的 时 候 , 这 就 行 不 通 了 。 不 仅 是 因为 耗费 巨大 ,还 因为 在 大 规模 的 基础 上 保持 数据 
收集 标准 的 一 致 性 不 太 现实 。 

大 数据 时 代 要 求 我 们 重新 审视 数据 精确 性 的 优 劣 。 如 果 将 传统 的 思维 模式 运用 于 数 
字 化 、 网 络 化 的 21 世纪 ,就 有 可 能 错过 重要 的 信息 。 

如 今 ,我 们 已 经 生活 在 信息 时 代 。 我 们 掌握 的 数据 库 越 来 越 全 面 , 它 包括 与 这 些 现象 
相关 的 大 量 甚至 全 部 数据 。 我 们 不 再 需要 那么 担心 某 个 数据 点 对 整套 分 析 的 不 利 影响 。 


于 和 入 


我 们 要 做 的 就 是 要 接受 这 些 纷繁 的 数据 并 从 中 受益 ,而 不 是 以 高 昂 的 代价 消除 所 有 的 不 
确定 性 。 

在 华盛顿 州 布 菜 恩 市 的 英国 石油 公司 (BP) 
切 里 波 因 特 炼油 厂 ( 图 4-5) 里 ,无 线 感应 器 遍布 
于 整个 工厂 ,形成 无 形 的 网 络 , 能 够 产生 大 量 实 
时 数据 。 在 这 里 ,酷热 的 恶劣 环境 和 电气 设备 
的 存在 有 时 会 对 感应 器 读数 有 所 影响 ,形成 错 
误 的 数据 。 但 是 数据 生成 的 数量 之 多 可 以 弥补 
这 些小 错误 。 随 时 监测 管道 的 承 压 使 得 BP 能 
够 了 解 到 ,有 些 种 类 的 原油 比 其 他 种 类 更 具有 
腐蚀 性 。 以 前 ,这 都 是 无 法 发 现 也 无 法 防止 的 。 

有 时 候 , 当 我 们 掌握 了 大 量 新 型 数据 时 ,精确 性 就 不 那么 重要 了 ,我 们 同样 可 以 掌握 
事情 的 发 展 趋势 。 大 数据 不 仅 让 我 们 不 再 期 待 精确 性 ,也 让 我 们 无 法 实现 精确 性 。 然 而 ， 
除了 一 开始 会 与 我 们 的 直觉 相 矛 盾 之 外 ,接受 数据 的 不 精确 和 不 完美 ,反而 能 够 更 好 地 进 
行 预测 ,也 能 够 更 好 地 理解 这 个 世界 。 

值得 注意 的 是 ,错误 性 并 不 是 大 数据 本 身 固 有 的 特性 ,而 是 一 个 急需 我 们 去 处 理 的 现 
实 问题 ,并且 有 可 能 长 期 存在 。 它 只 是 我 们 用 来 测量 .记录 和 交流 数据 的 工具 的 一 个 缺 
陷 。 如 果 说 哪 天 技术 变 得 完美 无 缺 了 ,不 精确 的 问题 也 就 不 复 存 在 了 。 因 为 拥有 更 大 数 
据 量 所 能 带 来 的 商业 利益 远 远 超过 增加 一 点 儿 精 确 性 ,所 以 通常 我 们 不 会 再 花 大 力气 去 
提升 数据 的 精确 性 。 这 又 是 一 个 关注 焦点 的 转变 ,正如 以 前 ,统计 学 家 们 总 是 把 他 们 的 兴 
趣 放 在 提高 样本 的 随机 性 而 不 是 数量 上 。 如 今 , 大 数据 给 我 们 带 来 的 利益 ,让 我 们 能 够 接 
受 不 精确 的 存在 了 。 


4.3.4 混杂 性 是 标准 途径 


长 期 以 来 ,人 们 一 直 用 分 类 法 和 索引 法 来 帮助 自己 存储 和 检索 数据 资源 。 这 样 的 分 
级 系统 通常 都 不 完善 。 而 在 “小 数据 ?范围 内 ,这 些 方法 就 很 有 效 ,但 一 旦 把 数据 规模 增加 
好 几 个 数量 级 ,这些 预 设 一 切 都 各 就 各 位 的 系统 就 会 月 溃 。 

相片 分 享 网 站 Flickr 在 2011 年 拥有 来 自 大 概 一 亿 用 户 的 60 亿 张 照片 (图 4-6) 。 
根据 预先 设 定好 的 分 类 来 标注 每 张 照片 就 没有 意义 了 。 人 恰恰 相反 ,清楚 的 分 类 被 更 混乱 
却 更 灵活 的 机 制 所 取代 了 。 这 些 机 制 才 能 适应 改变 着 的 世界 。 

当 我 们 上 传 照片 到 Flickr 网 站 的 时 候 , 我 们 会 给 照片 添加 标签 ,也 就 是 使 用 一 组 文本 
标签 来 编组 和 搜索 这 些 资源 。 人 们 用 自己 的 方式 创造 和 使 用 标签 ,所 以 它 是 没有 标准 、 没 
有 预先 设 定 的 排列 和 分 类 ,也 没有 我 们 所 必须 遵守 的 类 别 规定 。 任 何人 都 可 以 输入 新 的 


”Flickr, 雅 虎 旋 下 图 片 分 享 网 站 。 由 加 拿 大 Ludicorp 公司 开发 设计 。2004 年 2 月 正式 发 表 Flickr 网 站 。 早 
期 的 Flickr 是 一 个 具有 即时 交换 照片 功能 的 多 人 聊天 室 , 可 供 分 享 照片 。 后 来 ,研发 工作 都 集中 在 使 用 者 的 上 传 和 归 
档 功能 ,聊天 室 渐渐 被 忽略 了 。 除 了 许多 使 用 者 在 Flickr 上 分 享 他 们 的 私人 照片 ,该 服务 也 可 作为 网 络 图 片 的 存放 空 
间 , 受 到 许多 网 络 作者 喜爱 。 在 Flickr, 人们 能 够 将 照片 标 上 标签 (Tag) 并 且 以 此 方式 浏览 。2013 年 5 月 ,Flickr 进行 
了 大 幅 改 版 ,彻底 改变 了 外 观 和 感觉 ,而 且 升级 了 Android 应 用 ,并 增加 了 存储 空间 。 


第 4 和 写 办 数 扎 时 人 大 的 电 绚 杰 伴 


图 4-6 Flickr 年 度 热 门 图 片 


标签 ,标签 内 容 事实 上 就 成 为 网 络 资源 的 分 类 标准 。 标 签 被 广泛 地 应 用 于 Facebook、 博 
客 等 社交 网 络 上 。 因 为 它们 的 存在 ,互联 网 上 的 资源 变 得 更 加 容易 找到 ,特别 是 像 图 片 、 
视频 和 音乐 这 些 无 法 用 关键 词 搜索 的 非 文本 类 资源 。 

当然 ,有 时 人 们 错 标的 标签 会 导致 资源 编组 的 不 准确 ,这 会 让 习惯 了 精确 性 的 人 们 很 
痛苦 。 但 是 ,我 们 用 来 编组 照片 集 的 混乱 方法 给 我 们 带 来 了 很 多 好 处 。 比 如 ,我 们 拥有 了 
更 加 丰富 的 标签 内 容 , 同 时 能 更 深 更 广 地 获得 各 种 照片 。 我 们 可 以 通过 合并 多 个 搜索 标 
签 来 过 滤 需 要 寻找 的 照片 ,这 在 以 前 是 无 法 完成 的 。 我 们 添加 标签 时 所 带 来 的 不 准确 性 
从 某 种 意义 上 说 明 我 们 能 够 接受 世界 的 纷繁 复杂 。 这 是 对 更 加 精确 系统 的 一 种 对 抗 。 这 
些 精 确 的 系统 试图 让 我 们 接受 一 个 世界 贫乏 而 规整 的 惨 象 一 假装 世间 万 物 都 是 整齐 地 
排列 的 。 而 事实 上 现实 是 纷繁 复杂 的 ,天 地 间 存 在 的 事物 也 远 远 多 于 系统 所 设想 的 。 

互联 网 上 最 火 的 网 址 都 表明 ,它们 欣赏 不 精确 而 不 会 假装 精确 。 当 一 个 人 在 网 站 上 
见 到 一 个 Facebook 的 “喜欢 ”按钮 时 ,可 以 看 到 有 多少 其 他 人 也 在 点 击 。 当 数量 不 多 时 ， 
会 显示 像 *63” 这 种 精确 的 数字 。 当 数量 很 大 时 , 则 只 会 显示 近似 值 ,比方 说 "4000”。 这 并 
不 代表 系统 不 知道 正确 的 数据 是 多 少 , 只 是 当 数 量规 模 变 大 的 时 候 , 确 切 的 数量 已 经 不 那 
么 重要 了 。 另 外 ,数据 更 新 得 非常 快 ,其 至 在 刚刚 显示 出 来 的 时 候 可 能 就 已 经 过 时 了 。 所 
以 ,同样 的 原理 适用 于 时 间 的 显示 。 电 子 邮 箱 会 确切 标注 在 很 短 时 间 内 收 到 的 信件 ,比方 
说 “11 分 钟 之 前 ”。 但 是 ,对 于 已 经 收 到 一 段 时 间 的 信件 , 则 会 标注 如 “两 个 小 时 之 前 ”这 
种 不 太 确切 的 时 间 信 息 。 

如 今 , 要 想 获得 大 规模 数据 带 来 的 好 处 ,混乱 应 该 是 一 种 标准 途径 ,而 不 应 该 是 竭力 
避免 的 。 


4.3.5 新 的 数据 库 设 计 


传统 的 关系 数据 库 是 为 小 数据 的 时 代 设 计 的 ,所 以 能 够 也 需要 仔细 策划 。 在 那个 时 
代 , 人 们 遇 到 的 问题 无 比 清晰 ,数据 库 被 设计 用 来 有 效 地 回答 这 些 问题 。 

传统 的 数据 库 引 擎 要 求 数据 高 度 精确 和 准确 排列 。 数 据 不 是 单纯 地 被 存储 , 它 往往 
被 划分 为 包含 “ 域 ` 字 段 ) 的 记录 ,每 个 域 都 包含 特定 种 类 和 特定 长 度 的 信息 。 比 方 说 , 某 
个 数值 域 被 设 定 为 7 位 数 长 ,一 个 1000 万 或 者 更 大 的 数值 就 无 法 被 记录 。 一 个 人 想 在 某 
个 记录 手机 号 码 的 域 中 输入 一 串 汉字 是 “不 被 允许 ”的 。 想 要 被 允许 , 则 需要 改变 数据 库 
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结构 才 可 以 。 索 引 是 事先 就 设 定好 了 的 ,这 也 就 限制 了 人 们 的 搜索 。 增 加 一 个 新 的 索引 
往往 很 耗费 时 间 ,因为 需要 改变 底层 的 设计 。 预 设 场 域 显示 的 是 数据 的 整齐 排列 。 最 普 
遍 的 数据 库 查 询 语言 是 结构 化 查询 语言 (SQL) 。 

但 是 ,这 种 数据 存储 和 分 析 的 方法 越 来 越 和 现实 相 冲突 。 我 们 发 现 ,不 精确 已 经 开始 
渗入 数据 库 设 计 这 个 最 不 能 容忍 错误 的 领域 。 我 们 现在 拥有 各 种 各 样 、 参 差 不 齐 的 海量 
数据 。 很 少 有 数据 完全 符合 预先 设 定 的 数据 种 类 。 而 且 , 我 们 想 要 数据 回答 的 问题 ,也 只 
有 在 我 们 收集 和 处 理 数据 的 过 程 中 才 全 知道 。 这 些 现实 条 件 导致 了 新 的 数据 库 设 计 的 
诞生 。 

近年 的 大 转变 是 非 关 系 型 数据 库 的 出 现 , 它 不 需要 预先 设 定 记录 结构 ,允许 处 理 超大 
量 五 花 八 门 的 数据 。 因 为 包容 了 结构 多 样 性 ,这 些 数 据 库 设 计 要 求 更 多 的 处 理 和 存储 资 
源 。 帕 特 。 赫 兰 德 是 来 自 微软 的 世界 上 最 权威 的 数据 库 设计 专家 之 一 ,他 把 这 称 为 一 个 
重大 的 转变 。 他 分 析 了 被 各 种 各 样 质量 参差 不 齐 的 数据 所 侵蚀 的 传统 数据 库 设 计 的 核心 
原则 ,他 认为 ,处 理 海 量 数据 会 不 可 避免 地 导致 部 分 信息 的 缺失 。 虽 然 这 本 来 就 是 有 “ 损 
耗 性 ”的 ,但 是 能 快速 得 到 想 要 的 结果 弥补 了 这 个 缺陷 。 

传统 数据 库 的 设计 要 求 在 不 同 的 时 间 提 供 一 致 的 结果 。 比 方 说 ,如 果 你 查询 账户 结 
余 , 它 会 提供 确切 的 数目 ;而 你 几 秒 钟 之 后 查询 的 时 候 , 系 统 应 该 提供 同样 的 结果 ,没有 任 
何 改变 。 但 是 , 随 着 数据 数量 的 大 幅 增加 以 及 系统 用 户 的 增加 ,这 种 一 致 性 将 越 来 越 难 
保持 。 

大 的 数据 库 并 不 是 固定 在 某 个 地 方 的 , 它 一 般 分 散在 多 个 硬盘 和 多 台 计 算 机 上 。 为 
了 确保 其 运行 的 稳定 性 和 速度 ,一 个 记录 可 能 会 分 开 存 储 在 两 三 个 地 方 。 如 果 一 个 地 方 
的 记录 更 新 了 ,其 他 地 方 的 记录 则 只 有 同步 更 新 才 不 会 产生 错误 。 传 统 的 系统 会 一 直 等 
到 所 有 地 方 的 记录 都 更 新 ,然而 , 当 数 据 广泛 地 分 布 在 多 台 服 务 器 上 而 且 服 务 器 每 秒 钟 都 
会 接受 成 千 上 万 条 搜索 指令 的 时 候 , 同 步 更 新 就 比较 不 现实 了 。 因 此 ,多 样 性 是 一 种 解决 
的 方法 。 

最 能 代表 这 个 转变 的 ,就 是 Hadoop 的 流行 。Hadoop 是 与 谷歌 的 MapReduce 系统 
相对 应 的 开源 式 分 布 系 统 的 基础 架构 , 它 非常 善于 处 理 超大 量 的 数据 。 通 过 把 大 数据 变 
成 小 模块 ,然后 分 配给 其 他 机 器 进行 分 析 , 它 实现 了 对 超大 量 数据 的 处 理 。 它 预见 到 硬件 
可 能 会 次 痰 ,所 以 在 内 部 建立 了 数据 的 副本 , 它 还 假定 数据 量 之 大 导致 数据 在 处 理 之 前 不 
可 能 整齐 排列 。 典 型 的 数据 分 析 需 要 经 过 * 蔡 取 、 转 移 和 下 载 " 这 样 一 个 操作 流程 ,但 是 
Hadoop 不 拘泥 于 这 样 的 方式 。 相 反 . 它 假定 了 数据 量 的 巨大 使 得 数据 完全 无 法 移动 ,所 
以 人 们 必须 在 本 地 进行 数据 分 析 。 

Hadoop 的 输出 结果 没有 关系 型 数据 库 输出 结果 那么 精确 , 它 不 能 用 于 卫星 发 射 、. 开 
具 银 行 账户 明细 这 种 精确 度 要 求 很 高 的 任务 。 但 是 对 于 不 要 求 极端 精确 的 任务 , 它 就 比 
其 他 系统 运行 得 快 很 多 ,比如 说 把 顾客 分 群 ,然后 分 别 进行 不 同 的 营销 活动 。 

信用 卡 公 司 VISA 使 用 Hadoop, 能 够 将 处 理 两 年 内 730 亿 单 交易 所 需 的 时 间 , 从 一 
个 月 缩减 至 仅仅 13 分 钟 。 这 样 大 规模 处 理 时 间 上 的 缩减 足以 变革 商业 了 。 也 许 Hadoop 
不 适合 正规 记 账 , 但 是 当 可 以 允许 少量 错误 的 时 候 它 就 非常 实用 。 接 受 混乱 ,我 们 就 能 享 
受 极其 有 用 的 服务 ,这 些 服务 如 果 使 用 传统 方法 和 工具 是 不 可 能 做 到 的 ,因为 那些 方法 和 
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工具 处 理 不 了 这 么 大 规模 的 数据 。 
4.3.6 5% 的 数字 数据 与 95% 的 非 结构 化 数据 


据 估计 ,只 有 5% 的 数字 数据 是 结构 化 的 且 能 适用 于 传统 数据 库 。 如 果 不 接 受 混乱 ， 
剩 下 95% 的 非 结 构 化 数据 都 无 法 被 利用 ,比如 网 页 和 视频 资源 。 通 过 接受 不 精确 性 ,我 
们 打开 了 一 个 从 未 涉足 的 世界 的 窗户 。 

我 们 怎么 看 待 使 用 所 有 数据 和 使 用 部 分 数据 的 差别 ,以 及 我 们 怎样 选择 放松 要 求 并 
取代 严格 的 精确 性 ,将 会 对 我 们 与 世界 的 沟通 产生 深刻 的 影响 。 随 着 大 数据 技术 成 为 日 
常生 活 中 的 一 部 分 ,我 们 应 该 开始 从 一 个 比 以 前 更 大 更 全 面 的 角度 来 理解 事物 ,也 就 是 说 
应 该 将 * 样 本 一 总 体 ” 植 人 我 们 的 思维 中 。 

现在 ,我 们 能 够 容忍 模糊 和 不 确定 出 
现在 一 些 过 去 依赖 于 清晰 和 精确 的 顿 域 ， 
当然 过 去 可 能 也 只 是 有 清晰 的 假象 和 不 完 
全 的 精确 。 只 要 我 们 能 够 得 到 一 个 事物 更 
完整 的 概念 ,我 们 就 能 接受 模糊 和 不 确定 
的 存在 。 就 像 印象 派 的 画 风 一 样 (图 4-7)， 
近 看 画 中 的 每 一 笔 都 感觉 是 混乱 的 ,但 是 

一 步 就 会 发 现 这 是 一 幅 伟大 的 作品 ， 图 4-7 印象 派 画 作 
因为 退 后 一 步 的 时 候 就 能 看 出 画作 的 整体 
思路 了 。 

相 比 依赖 于 小 数据 和 精确 性 的 时 代 , 大 数据 因为 更 强调 数据 的 完整 性 和 混杂 性 ,帮助 
我 们 进一步 接近 事实 的 真相 。“ 部 分 "和 “确切 ”的 吸引 力 是 可 以 理解 的 。 但 是 , 当 我 们 的 
视野 局 限 在 我 们 可 以 分 析 和 能 够 确定 的 数据 上 时 .我 们 对 世界 的 整体 理解 就 可 能 产生 偏 
差 和 错误 。 不 仅 失 去 了 去 尽力 收集 一 切 数 据 的 动力 ,也 失去 了 从 各 个 不 同 角度 来 观察 事 
物 的 权利 。 所 以 ,局 限于 狭隘 的 小 数据 中 ,我 们 可 以 自豪 于 对 精确 性 的 追求 ,但 是 就 算 我 
们 可 以 分 析 得 到 细节 中 的 细节 ,也 依然 会 错过 事物 的 全 貌 。 

大 数据 要 求 我 们 有 所 改变 ,我 们 必须 能 够 接受 混乱 和 不 确定 性 。 精 确 性 似乎 一 直 是 
我 们 生活 的 支撑 ,但 认为 每 个 问题 只 有 一 个 答案 的 想法 是 站 不 住 脚 的 。 
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在 传统 观念 下 ,人 们 总 是 致力 于 找到 一 切 事情 发 生 背 后 的 原因 。 然 而 在 很 多 时 候 , 寻 
找 数 据 间 的 关联 并 利用 这 种 关联 就 足够 了 。 这 些 思想 上 的 重大 转变 导致 了 第 三 个 变革 ， 
我 们 尝试 着 不 再 探求 难以 提 摸 的 因果 关系 , 转 而 关注 事物 的 相关 关系 。 


4.4.1 关联 物 ,预测 的 关键 


虽然 在 小 数据 世界 中 相关 关系 也 是 有 用 的 .但 如 今 在 大 数据 的 背景 下 ,相关 关系 大 放 
异彩 。 通 过 应 用 相关 关系 ,我 们 可 以 比 以 前 更 容易 、 更 快捷 、 更 清楚 地 分 析 事 物 。 
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所 谓 相关 关系 ,其 核心 是 指 量化 两 个 数据 值 之 间 的 数理 关系 。 相 关 关 系 强 是 指 当 一 
个 数据 值 增加 时 , 另 一 个 数据 值 很 有 可 能 也 会 随 之 增加 。 我 们 已 经 看 到 过 这 种 很 强 的 相 
关 关 系 , 比 如 谷歌 流感 趋势 : 在 一 个 特定 的 地 理 位 置 , 越 多 的 人 通过 谷歌 搜索 特定 的 词 
条 ,该 地 区 就 有 更 多 的 人 患 了 流感 。 相 反 , 相 关 关 系 弱 就 意味 着 当 一 个 数据 值 增加 时 , 另 
一 个 数据 值 几乎 不 会 发 生变 化 。 例 如 ,我 们 可 以 寻找 关于 个 人 的 鞋 码 和 幸福 的 相关 关系 ， 
但 会 发 现 它们 几乎 扯 不 上 什么 关系 。 

相关 关系 通过 识别 有 用 的 关联 物 来 帮助 人 们 分 析 一 个 现象 ,而 不 是 通过 揭示 其 内 部 
的 运作 机 制 。 当 然 , 即 使 是 很 强 的 相关 关系 也 不 一 定 能 解释 每 一 种 情况 ,比如 两 个 事物 看 
上 去 行为 相似 ,但 很 有 可 能 只 是 巧合 。 相 关 关 系 没有 绝对 ,只 有 可 能 性 。 也 就 是 说 ,不 是 
亚马逊 推荐 的 每 本 书 都 是 顾客 想 买 的 书 。 但 是 ,如 果 相 关 关 系 强 , 一 个 相关 链接 成 功 的 概 
率 是 很 高 的 。 这 一 点 很 多 人 可 以 证 明 , 他 们 的 书架 上 有 很 多 书 都 是 因为 亚马逊 推荐 而 购 
买 的 。 

通过 找到 一 个 现象 的 良好 的 关联 物 ,相关 关系 可 以 帮助 人 们 捕捉 现在 和 预测 未 来 。 
如 果 A 和 B 经 常 一 起 发 生 ,我 们 只 需要 注意 到 也 发 生 了 ,就 可 以 预测 A 也 发 生 了 。 这 有 
助 于 我 们 捕 提 可 能 和 A 一 起 发 生 的 事情 ,即使 我 们 不 能 直接 测量 或 观察 到 A。 更 重要 的 
是 , 它 还 可 以 帮助 我 们 预测 未 来 可 能 发 生 什么 。 当 然 , 相 关 关 系 是 无 法 预知 未 来 的 ,它们 
只 能 预测 可 能 发 生 的 事情 。 但 是 ,这 已 经 极其 珍贵 了 。 

2004 年 ,沃尔玛 对 历史 交易 记录 这 个 庞大 的 数据 库 进行 了 观察 ,这 个 数据 库 记 录 不 
仅 包括 每 一 个 顾客 的 购物 清单 以 及 消费 额 ,还 包括 购物 篮 中 的 物品 .具体 购买 时 间 ,甚至 
购买 当日 的 天 气 。 沃 尔 玛 公 司 注意 到 ,每 当 在 季节 性 飓风 来 临 之 箭 ,不 仅 手电 简 销 售 量 增 
加 了 ,而 且 POP-Tarts 和 蛋 所 (美式 含 糖 早 餐 零 食 ) 的 销量 也 增加 了 。 因 此 , 当 季 节 性 风暴 
来 临时 ,沃尔玛 会 把 库存 的 蛋 捧 放 在 靠近 恨 风 用 品 的 位 置 , 以 方便 行 色 匆 匆 的 顾客 从 而 增 
加 销量 。 

在 大 数据 时 代 来 临 前 很 入, 相关 关系 就 已 经 被 证 明 大 有 用 途 。 这 个 观点 是 1888 年 查 
尔 斯 ， 达尔文 的 表 弟 弗朗西斯 . 高 尔 顿 事 士 提 出 的 ,因为 他 注意 到 人 的 身高 和 前 臂 的 长 
度 有 关系 。 相 关 关 系 背 后 的 数学 计算 是 直接 而 又 有 活力 的 ,这 是 相关 关系 的 本 质 特征 ,也 
是 让 相关 关系 成 为 最 广泛 应 用 的 统计 计量 方法 的 原因 。 但 是 在 大 数据 时 代 之 前 ,相关 关 
系 的 应 用 很 少 。 因 为 数据 很 少 而 且 收集 数据 很 费时 费力 ,所 以 统计 学 家 们 喜欢 找到 一 个 
关联 物 ,然后 收集 与 之 相关 的 数据 进行 相关 关系 分 析 来 评测 这 个 关联 物 的 优 劣 。 那 么 ,如 
何 寻找 这 个 关联 物 呢 ? 

除了 仅 依靠 相关 关系 ,专家 们 还 会 使 用 一 些 建立 在 理论 基础 上 的 假想 来 指导 自己 选 
择 适 当 的 关联 物 。 这 些 理论 就 是 一 些 抽象 的 观点 ,关于 事物 是 怎样 运作 的 。 然 后 收集 与 
关联 物 相 关 的 数据 来 进行 相关 关系 分 析 , 以 证 明 这 个 关联 物 是 否 真 的 合适 。 如 果 不 合适 ， 
人 们 通常 会 固执 地 再 次 尝试 ,因为 担心 可 能 是 数据 收集 的 错误 ,而 最 终 却 不 得 不 承认 一 开 
始 的 假想 甚至 假想 建立 的 基础 都 是 有 缺陷 和 必须 修改 的 。 这 种 对 假想 的 反复 试验 促进 了 
学 科 的 发 展 。 但 是 这 种 发 展 非常 缓慢 ,因为 个 人 以 及 团体 的 偏见 会 蒙蔽 人 们 的 双眼 ,导致 
人 们 在 设立 假想 、 应 用 假想 和 选择 关联 物 的 过 程 中 犯错 误 。 总 之 ,这 是 一 个 烦琐 的 过 程 ， 
只 适用 于 小 数据 时 代 。 
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在 大 数据 时 代 , 通 过 建立 在 人 的 偏见 基础 上 的 关联 物 监测 法 已 经 不 再 可 行 ,因为 数据 
库 太 大 而 且 需 要 考虑 的 领域 太 复杂 。 幸 运 的 是 ,许多 迫使 人 们 选择 假想 分 析 法 的 限制 条 
件 也 逐渐 消失 了 。 我 们 现在 拥有 如 此 多 的 数据 ,这 么 好 的 机 器 计算 能 力 ,因而 不 再 需要 人 
工 选择 一 个 关联 物 或 者 一 小 部 分 相似 数据 来 逐一 分 析 了 。 复 杂 的 机 器 分 析 能 为 人 们 辨认 
出 谁 是 最 好 的 代理 ,就 像 在 谷歌 流感 趋势 中 ,计算 机 把 检索 词 条 在 5 亿 个 数学 模型 上 进行 
测试 之 后 ,准确 地 找 出 了 哪些 是 与 流感 传播 最 相关 的 词 条 。 

人 们 理解 世界 不 再 需要 建立 在 假设 的 基础 上 ,这 个 假设 是 指针 对 现象 建立 的 有 关 其 
产生 机 制 和 内 在 机 理 的 假设 。 因 此 ,也 不 需要 建立 这 样 一 个 假设 ,关于 哪些 词 条 可 以 表示 
流感 在 何 时 何 地 传播 ;不 需要 了 解 航空 公司 怎样 给 机 票 定价 ;不 需要 知道 沃尔玛 的 顾客 的 
毫 饪 喜好 。 取 而 代 之 的 是 ,可 以 对 大 数据 进行 相关 关系 分 析 , 从 而 知道 哪些 检索 词 条 是 最 
能 显示 流感 的 传播 的 ,飞机 票 的 价格 是 否 会 飞涨 ,哪些 食物 是 腿 风 期 间 待 在 家 里 的 人 最 想 
吃 的 。 我 们 用 数据 驱动 的 关于 大 数据 的 相关 关系 分 析 法 ,取代 了 基于 假想 的 易 出 错 的 方 
法 。 大 数据 的 相关 关系 分 析 法 更 准确 .更 快 ,而 且 不 易 受 偏见 的 影响 。 

建立 在 相关 关系 分 析 法 基础 上 的 预测 是 大 数据 的 核心 。 这 种 预测 发 生 的 频率 非常 
高 ,以 至 于 人 们 经 常 忽略 了 它 的 创新 性 。 当 然 , 它 的 应 用 会 越 来 越 多 。 

大 数据 相关 关系 分 析 的 极致 , 非 美国 折扣 零售 商 塔 吉 特 (Target) 葛 属 了 。 该 公司 使 
用 大 数据 的 相关 关系 分 析 已 经 有 多 年 。《 纽 约 时 报 》 的 记者 查 尔 奢 。 杜 西 格 就 在 一 份 报道 
中 冰 述 了 塔 吉 特 公司 怎样 在 完全 不 和 准 妈妈 对 话 的 前 提 下 ,预测 一 个 女性 会 在 什么 时 候 
怀孕 。 基 本 上 来 说 ,就 是 收集 一 个 人 可 以 收集 到 的 所 有 数据 ,然后 通过 相关 关系 分 析 得 出 

对 于 零售 商 来 说 ,知道 一 个 顾客 是 否 怀孕 是 非常 重要 的 。 因 为 这 是 一 对 夫妻 改变 消 
费 观念 的 开始 ,也 是 一 对 夫妻 生活 的 分 水 岭 。 他 们 会 开始 光顾 以 前 不 会 去 的 商店 ,渐渐 对 
新 的 品牌 建立 忠诚 。 塔 吉 特 公司 的 市 场 专员 们 向 分 析 部 求助 ,看 是 否 有 什么 办 法 能 够 通 
过 一 个 人 的 购物 方式 发 现 她 是 否 怀孕 。 公 司 的 分 析 团 队 首 先 查 看 了 签署 婴儿 礼物 登记 等 
的 女性 的 消费 记录 。 塔 吉 特 公司 注意 到 ,登记 得 上 的 妇女 会 在 怀孕 大 概 第 三 个 月 的 时 候 
买 很 多 无 香 乳 液 。 几 个 月 之 后 ,她 们 会 买 一 些 营 养 品 ,比如 镁 、 钙 、 锌 。 公 司 最 终 找 出 了 大 
概 二 十 多 种 关联 物 ,这 些 关 联 物 可 以 给 顾客 进行 “怀孕 趋势 评分。 这些 相关 关系 甚至 使 
得 零售 商 能 够 比较 准确 地 预测 预产期 ,这 样 就 能 够 在 孕期 的 每 个 阶段 给 客户 寄 送 相应 的 
优惠 券 , 这 才 是 塔 吉 特 公司 的 目的 。 

在 社会 环境 下 寻找 关联 物 只 是 大 数据 分 析 法 采取 的 一 种 方式 。 同 样 有 用 的 一 种 方法 
是 ,通过 找 出 新 种 类 数据 之 间 的 相互 联系 来 解决 日 常 需要 。 比 方 说 ,一 种 称 为 预测 分 析 法 
的 方法 就 被 广泛 地 应 用 于 商业 领域 . 它 可 以 预测 事件 的 发 生 。 这 可 以 指 一 个 能 发 现 可 能 
的 流行 歌曲 的 算法 系统 一 一 音乐 界 广泛 采用 这 种 方法 来 确保 它们 看 好 的 歌曲 真 的 会 流 
行 ; 也 可 以 指 那些 用 来 防止 机 器 失效 和 建筑 倒塌 的 方法 。 现 在 ,在 机 器 、 发 动机 和 桥梁 等 
基础 设施 上 放置 传感器 变 得 越 来 越 平常 了 ,这 些 传感器 被 用 来 记录 散发 的 热量 ,振幅 、 承 
压 和 发 出 的 声音 等 。 

一 个 东西 要 出 故障 ,不 会 是 瞬间 的 .而 是 慢 慢 地 出 问题 的 。 通 过 收集 所 有 的 数据 ,可 
以 预先 捕 提 到 事物 要 出 故障 的 信和 号 ,比方 说 发 动机 的 喻 喻 声 . 引 擎 过 热 都 说 明 它们 可 能 要 
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出 故障 了 。 系 统 把 这 些 异 常情 况 与 正常 情况 进行 对 比 ,就 会 知道 什么 地 方 出 了 毛病 。 通 
过 尽早 地 发 现 异常 ,系统 可 以 提醒 人 们 在 故障 之 前 更 换 零件 或 者 修复 问题 。 通 过 找 出 一 
个 关联 物 并 监控 它 ,就 能 预测 未 来 。 


4.4.2 “是 什么 ”, 而 不 是 “为 什么 ” 


在 小 数据 时 代 , 相 关 关 系 分 析 和 因果 分 析 都 不 容易 ,耗费 巨大 ,都 要 从 建立 假设 开始 ， 
然后 进行 实验 一 一 这 个 假设 要 么 被 证 实 要 么 被 推翻 。 但 是 ,由 于 两 者 都 始 于 假设 ,这 些 分 
析 就 都 有 受 偏见 影响 的 可 能 , 极 易 导 致 错误 。 与 此 同时 ,用 来 做 相关 关系 分 析 的 数据 很 难 
得 到 。 

另 一 方面 ,在 小 数据 时 代 , 由 于 计算 机 能 力 的 不 足 , 大 部 分 相关 关系 分 析 仅 限于 寻求 
线性 关系 。 而 事实 上 ,实际 情况 远 比 人 们 所 想象 的 要 复杂 。 经 过 复杂 的 分 析 , 能 够 发 现 数 
据 的 “ 非 线 性 关系 ”。 

多 年 来 ,经 济 学 家 和 政治 家 一 直 认 为 收入 水 平和 幸福 感 是 成 正比 的 。 从 数据 图 表 上 
可 以 看 到 ,虽然 统计 工具 呈现 的 是 一 种 线性 关系 ,但 事实 上 ,它们 之 间 存 在 一 种 更 复杂 的 
动态 关系 : 例如 ,对 于 收入 水 平 在 一 万 美元 以 下 的 人 来 说 ,一 旦 收入 增加 ,幸福 感 会 随 之 
提升 ;但 对 于 收入 水 平 在 一 万 美元 以 上 的 人 来 说 ,幸福 感 并 不 会 随 着 收入 水 平 提高 而 提 
升 。 如 果 能 发 现 这 层 关系 ,我 们 看 到 的 就 应 该 是 一 条 曲线 ,而 不 是 统计 工具 分 析出 来 的 
直线 。 

这 个 发 现 对 决策 者 来 说 非常 重要 。 如 果 只 看 到 线性 关系 的 话 , 那 么 政策 重心 应 完全 
放 在 增加 收入 上 ,因为 这 样 才能 增加 全 民 的 幸福 感 。 而 一 旦 察觉 到 这 种 非 线性 关系 ,策略 
的 重心 就 会 变 成 提高 低 收入 人 群 的 收入 水 平 ,因为 这 样 明显 更 划算 。 

当 相 关 关 系 变 得 更 复杂 时 ,一 切 就 更 混乱 了 。 比 如 ,各 地 麻疹 疫苗 接种 率 的 差别 与 人 
们 在 医疗 保健 上 的 花费 似乎 有 关联 。 但 是 ,哈佛 与 麻 省 理工 的 联合 研究 小 组 发 现 ,这 种 关 
联 不 是 简单 的 线性 关系 ,而 是 一 个 复杂 的 曲线 图 。 和 预期 相同 的 是 , 随 着 人 们 在 医疗 上 花 
费 的 增多 ,麻疹 疫苗 接种 率 的 差别 会 变 小 ;但 令 人 惊讶 的 是 , 当 增 加 到 一 定 程度 时 ,这 种 差 
别 又 会 变 大 。 发 现 这 种 关系 对 公共 卫生 官员 来 说 非常 重要 ,但 是 普通 的 线性 关系 分 析 无 
法 捕 提 到 这 个 重要 信息 。 

大 数据 时 代 , 专 家 们 正在 研发 能 发 现 并 对 比分 析 非 线性 关系 的 技术 工具 。 一 系列 飞 
速 发 展 的 新 技术 和 新 软件 也 从 多 方面 提高 了 相关 关系 分 析 工 具 发 现 非 因果 关系 的 能 力 。 
这 些 新 的 分 析 工 具 和 思路 为 我 们 展现 了 一 系列 新 的 视野 被 有 用 的 预测 ,我 们 看 到 了 很 多 
以 前 不 曾 注 意 到 的 联系 ,还 掌握 了 以 前 无 法 理解 的 复杂 技术 和 社会 动态 。 但 最 重要 的 是 ， 
通过 去 探求 “是 什么 ?而 不 是 “为 什么 ”, 相 关 关 系 帮助 人 们 更 好 地 了 解 了 这 个 世界 。 


4.4.3 通过 因果 关系 了 解 世界 


传统 情况 下 ,人 类 是 通过 因果 关系 了 解 世界 的 。 

首先 ,我 们 的 直接 愿望 就 是 了 解 因果 关系 。 即 使 无 因果 联系 存在 ,我 们 也 还 是 会 假定 
其 存在 。 研 究 证 明 , 这 只 是 人 们 的 认 知 方式 ,与 每 个 人 的 文化 背景 .生长 环境 以 及 教育 水 
平 无 关 。 当 我 们 看 到 两 件 事 情 接连 发 生 的 时 候 , 会 习惯 性 地 从 因果 关系 的 角度 来 看 待 它 
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们 。 看 看 下 面 的 三 句 话 :“ 弗 雷 德 的 父母 迟到 了 ;供应 商 快 到 了 :; 弗 雷 德 生气 了 .。” 

我 们 读 到 这 里 时 ,可 能 立马 就 会 想到 弗 雷 德 生 气 并 不 是 因为 供应 商 快 到 了 ,而 是 他 父 
母 迟到 了 的 缘故 。 实 际 上 ,我 们 也 不 知道 到 底 是 什么 情况 。 即 便 如 此 ,我 们 还 是 不 禁 认为 
这 些 假 设 的 因果 关系 是 成 立 的 。 

普林斯顿 大 学 心理 学 专家 ,同时 也 是 2002 年 诺 贝 尔 经 济 学 奖 得 主 丹尼尔 。 卡 尼 曼 就 
是 用 这 个 例子 证 明了 人 有 两 种 思维 模式 。 第 一 种 是 不 费力 的 快速 思维 ,通过 这 种 思维 方 
式 几 秒 钟 就 能 得 出 结果 ; 另 一 种 是 比较 费力 的 慢性 思维 ,对 于 特定 的 问题 ,需要 考虑 到 位 。 

快速 思维 模式 使 人 们 偏向 用 因果 联系 来 看 待 周 围 的 一 切 , 即 使 这 种 关系 并 不 存在 。 
这 是 人 们 对 已 有 的 知识 和 信仰 的 执著 。 在 古代 ,这 种 快速 思维 模式 是 很 有 用 的 , 它 能 帮助 
人 们 在 信息 量 缺 乏 却 必须 快速 做 出 决定 的 危险 情况 下 化 险 为 夷 。 但 是 ,通常 这 种 因果 关 
系 都 是 并 不 存在 的 。 

卡 尼 曼 指出 ,平时 生活 中 ,由 于 惰性 ,人 们 很 少 慢 条 斯 理 地 思考 问题 ,所 以 快速 思维 模 
式 就 占据 了 上 风 。 因 此 ,人 们 会 经 常 腾 想 出 一 些 因 果 关 系 , 最 终 导 臻 了 对 世界 的 错误 
理解 。 

父母 经 常 告诉 孩子 ,天 冷 时 不 戴 帽子 和 手套 就 会 感冒 。 然 而 ,事实 上 ,感冒 和 穿戴 之 
间 却 没有 直接 的 联系 。 有 时 ,我们 在 某 个 餐馆 用 和 餐 后 生病 了 ,就 会 自然 而 然 地 觉得 这 是 餐 
馆 食物 的 问题 ,以 后 可 能 就 不 再 去 这 家 餐馆 了 。 事 实 上 ,我 们 肚子 痛 也 许 是 因为 其 他 的 传 
染 途 径 , 比 如 和 患者 握 过 手 之 类 的 。 然 而 ,我 们 的 快速 思维 模式 使 我 们 直接 将 其 归于 任何 
我 们 能 在 第 一 时 间 想 起 来 的 因果 关系 ,因此 ,这 经 常 导致 我 们 做 出 错误 的 决定 。 

与 常识 相反 ,经 常 凭借 直觉 而 来 的 因果 关系 并 没有 帮助 人 们 加 深 对 这 个 世界 的 理解 。 
很 多 时 候 , 这 种 认 知 捷径 只 是 给 了 我 们 一 种 自己 已 经 理解 的 错觉 ,但 实际 上 ,我 们 因此 完 
全 陷入 了 理解 误区 之 中 。 就 像 采 样 是 我 们 无 法 处 理 全 部 数据 时 的 捷径 一 样 ,这 种 找 因果 
关系 的 方法 也 是 我 们 大 脑 用 来 避免 辛苦 思考 的 捷径 。 

在 小 数据 时 代 , 很 难 证 明 由 直觉 而 来 的 因果 联系 是 错误 的 。 现 在 .情况 不 一 样 了 。 将 
来 ,大 数据 之 间 的 相关 关系 ,将 经 常会 用 来 证 明 直 觉 的 因果 联系 是 错误 的 。 最 终 也 能 表 
明 ,统计 关系 也 不 蕴含 多 少 真实 的 因果 关系 。 总 之 ,人 们 的 快速 思维 模式 将 会 遭受 各 种 各 
样 的 现实 考验 。 

为 了 更 好 地 了 解 世界 ,我们 会 因此 更 加 努力 地 思考 。 但 是 ,即使 是 我 们 用 来 发 现 因果 
关系 的 第 二 种 思维 方式 一 一 慢性 思维 ,也 将 因为 大 数据 之 间 的 相关 关系 迎 来 大 的 改变 。 

日 常生 活 中 ,人 们 习惯 性 地 用 因果 关系 来 考虑 事情 ,所 以 会 认为 ,因果 联系 是 浅显 易 
寻 的 。 但 事实 却 并 非 如 此 。 与 相关 关系 不 一 样 ,即使 用 数学 这 种 比较 直接 的 方式 ,因果 联 
系 也 很 难 被 轻易 证 明 。 我 们 也 不 能 用 标准 的 等 式 将 因果 关系 表达 清楚 。 因 此 ,即使 我 们 
慢 慢 思考 , 想 要 发 现 因果 关系 也 是 很 困难 的 。 因 为 我 们 已 经 习惯 了 信息 的 匮乏 ,故此 也 习 
惯 了 在 少量 数据 的 基础 上 进行 推理 思考 ,即使 大 部 分 时 候 很 多 因素 都 会 削弱 特定 的 因果 

就 拿 狂 犬 疫苗 这 个 例子 来 说 ,1885 年 7 月 6 日 ,法 国 化 学 家 路 易 。 巴 斯 德 接 诊 了 一 
个 9 岁 的 小 孩 约瑟夫 … 梅 斯 特 ,他 被 带 有 狂犬 病毒 的 狗 咬 了 。 那 时 , 巴 斯 德 刚刚 研发 出 狂 
犬 疫苗 ,也 实验 验证 过 效果 了 。 梅 斯 特 的 父母 就 县 求 巴 斯 德 给 他 们 的 儿子 注射 一 针 。 书 


大 由 电导 哗 


斯 德 做 了 , 梅 斯 特 活 了 下 来 。 发 布 会 上 , 巴 斯 德 因 为 把 一 个 小 男孩 从 死神 手中 救出 而 大 受 
襄 奖 。 

但 真 的 是 因为 他 吗 ? 事实 证 明 ,一 般 来 说 ,人 被 狂犬 病 狗 咬 后 患 上 狂犬 病 的 概率 只 有 
七 分 之 一 。 即 使 巴 斯 德 的 疫苗 有 效 , 这 也 只 适用 于 七 分 之 一 的 案例 中 。 无 论 如 何 , 就 算 没 
有 狂犬 疫苗 ,这 个 小 男孩 活 下 来 的 概率 还 是 有 85%% 。 

在 这 个 例子 中 ,大 家 都 认为 是 注射 疫苗 救 了 梅 斯 特 一 命 。 但 这 里 却 有 两 个 因果 关系 
值得 商 椎 。 第 一 个 是 疫苗 和 狂犬 病毒 之 间 的 因果 关系 ,第 二 个 就 是 被 带 有 和 狂犬 病毒 的 狗 
咬 和 患 狂 犬 病 之 间 的 因果 关系 。 即 便 是 说 疫苗 能 够 医 好 狂犬 病 , 第 二 个 因果 关系 也 只 适 
用 于 极 少数 情况 。 

不 过 ,科学 家 已 经 克服 了 用 实验 来 证 明 因果 关系 的 难题 。 实 验 是 通过 是 否 有 诱因 这 
两 种 情况 ,分 别 来 观察 所 产生 的 结果 是 不 是 和 真实 情况 相符 ,如 果 相 符 就 说 明确 实 存 在 因 
果 关 系 。 这 个 衡量 假说 的 验证 情况 控制 得 越 严格 ,你 就 会 发 现 因果 关系 越 有 可 能 是 真实 

因此 ,与 相关 关系 一 样 ,因果 关系 被 完全 证 实 的 可 能 几乎 是 没有 的 ,我 们 只 能 说 , 某 两 
者 之 间 很 有 可 能 存在 因果 关系 。 但 两 者 之 间 又 有 不 同 , 证 明 因 果 关 系 的 实验 要 么 不 切实 
际 , 要 么 违背 社会 伦理 道德 。 比 方 说 ,怎么 从 5 亿 词 条 中 找 出 和 流感 传播 最 相关 的 呢 ? 难 
道真 能 为 了 找 出 被 咬 和 患 病 之 间 的 因果 关系 而 置 成 百 上 千 的 病人 的 生命 于 不 顾 吗 ? 因为 
实验 会 要 求 把 部 分 病人 当成 未 被 咬 的 “控制 组 "成员 来 对 待 ,但 是 就 算 给 这 些 病人 打 了 疫 
苗 ,又 能 保证 万 无 一 失 吗 ? 而 且 就 算 这 些 实验 可 以 操作 ,操作 成 本 也 非常 昂贵 。 


4.4.4 通过 相关 关系 了 解 世 界 


不 像 因 果 关 系 , 证 明 相关 关系 的 实验 耗资 少 ,费时 也 少 。 与 之 相 比 ,分 析 相 关 关 系 ,我 
们 既 有 数学 方法 ,也 有 统计 学 方法 ,同时 ,数字 工具 也 能 帮 我 们 准确 地 找 出 相关 关系 。 

相关 关系 分 析 本 身 意 义 重大 ,同时 它 也 为 研究 因果 关系 黄 定 了 基础 。 通 过 找 出 可 能 
相关 的 事物 ,我 们 可 以 在 此 基础 上 进行 进一步 的 因果 关系 分 析 。 如 果 存 在 因果 关系 的 话 ， 
再 进一步 找 出 原因 。 这 种 便捷 的 机 制 通过 实验 降低 了 因果 分 析 的 成 本 。 我 们 也 可 以 从 相 
互联 系 中 找到 一 些 重要 的 变量 ,这 些 变量 可 以 用 到 验证 因果 关系 的 实验 中 去 。 

可 是 ,我 们 必须 非常 认真 。 相 关 关 系 很 有 用 ,不 仅 是 因为 它 能 为 我 们 提供 新 的 视角 ， 
而 且 提 供 的 视角 都 很 清晰 。 而 一 旦 把 因果 关系 考虑 进来 ,这 些 视 角 就 有 可 能 被 蒙蔽 掉 。 

例如 ,Kaggle, 一 家 为 所 有 人 提供 数据 挖掘 竞赛 平台 的 公司 ,举办 了 关于 二 手 车 的 质 
量 竞赛 。 二 手 车 经 销 商 将 二 手 车 数据 提供 给 参加 比赛 的 统计 学 家 ,统计 学 家 们 用 这 些 数 
据 建立 一 个 算法 系统 来 预测 经 销 商 拍卖 的 哪些 车 有 可 能 出 现 质量 问题 。 相 关 关 系 分 析 表 
明 ,橙色 的 车 有 质量 问题 的 可 能 性 只 有 其 他 车 的 一 半 。 

当 我 们 读 到 这 里 的 时 候 , 不 禁 也 会 思考 其 中 的 原因 。 难 道 是 因为 橙色 车 的 车 主 更 爱 
车 ,所 以 车 被 保护 得 更 好 吗 ? 或 是 这 种 颜色 的 车 子 在 制造 方面 更 精良 些 吗 ? 还 是 因为 橙 
色 的 车 更 显眼 、 出 车 祸 的 概率 更 小 ,所 以 转手 的 时 候 , 各 方面 的 性 能 保持 得 更 好 ? 

马上 ,我们 就 陷 人 了 各 种 各 样 谜 一 样 的 假设 中 。 若 要 找 出 相关 关系 ,可 以 用 数学 方 
法 ,但 如 果 是 因果 关系 ,这 却 是 行 不 通 的 。 所 以 , 没 必 要 一 定 要 找 出 相关 关系 背后 的 原因 , 
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当 我 们 知道 了 “是 什么 ”的 时 候 ,“ 为 什么 ”其实 没 那么 重要 了 ,否则 就 会 催生 一 些 滑稽 的 想 
法 。 比 方 说 上 面 提 到 的 例子 里 ,是 不 是 应 该 建议 车 主 把 车 漆 成 橙色 呢 ? 毕竟 ,这 样 就 说 明 
车 子 的 质量 更 过 硬 啊 ! 

考虑 到 这 些 , 如 果 把 以 确凿 数据 为 基础 的 相关 关系 和 通过 快速 思维 构想 出 的 因果 关 
系 相 比 的 话 ,前 者 就 更 具有 说 服 力 。 但 在 越 来 越 多 的 情况 下 ,快速 清晰 的 相关 关系 分 析 甚 
至 比 慢 速 的 因果 分 析 更 有 用 和 更 有 效 。 慢 速 的 因果 分 析 集 中 体现 为 通过 严格 控制 的 实验 
来 验证 的 因果 关系 ,而 这 必然 是 非常 耗 时 耗 力 的 。 

近年 来 ， 家 一 直 在 试图 减少 这 些 实验 的 花费 ,比如 说 ,通过 巧妙 地 结合 相似 的 调 
查 ,做 成 “类 似 实 验 ”。 这 样 一 来 ,因果 关系 的 调查 成 本 就 降低 了 ,但 还 是 很 难 与 相关 关系 
体现 的 优越 性 相 抗 衡 。 还 有 ,正如 之 前 提 到 的 ,在 专家 进行 因果 关系 的 调查 时 ,相关 关系 
分 析 本 来 就 会 起 到 帮助 的 作用 。 

在 大 多 数 情况 下 ,一 旦 完成 了 对 大 数据 的 相关 关系 分 析 , 而 又 不 再 满足 于 仅仅 知道 
“是 什么 ”时 ,我 们 就 会 继续 向 更 深层 次 研究 因果 关系 , 找 出 背后 的 “为 什么 ”。 

因果 关系 还 是 有 用 的 ,但 是 它 将 不 再 被 看 成 是 意义 来 源 的 基础 。 在 大 数据 时 代 , 即 使 
很 多 情况 下 ,我 们 依然 指望 用 因果 关系 来 说 明 我 们 所 发 现 的 相互 联系 ,但 是 ,我 们 知道 因 
果 关系 只 是 一 种 特殊 的 相关 关系 。 相 反 , 大 数据 推动 了 相关 关系 分 析 。 相 关 关 系 分 析 通 
常情 况 下 能 取代 因果 关系 起 作用 ,即使 在 不 可 取代 的 情况 下 , 它 也 能 指导 因果 关系 起 
作用 。 


【延伸 阅读 】 


美国 百 亿 美元 望远镜 主 镜 安 装 完毕 


勃 为 名 ,在 轨道 上 环绕 着 地 球 的 望远镜 , 它 的 位 
置 在 地 球 的 大 气 层 之 上 ,因此 影像 不 会 受到 大 气 
演 流 的 扰动 , 视 相 度 绝 佳 又 没有 大 气 散 射 造成 的 
背景 光 ,还 能 观测 会 被 臭氧 层 吸 收 的 紫外 线 。 它 
于 1990 年 成 功 发 射 ,弥补 了 地 面 观测 的 不 足 , 帮 
助 天 文学 家 解决 了 许多 天 文学 上 的 基本 问题 ,使 
得 人 类 对 天 文物 理 有 更 多 的 认识 。2013 年 12 
月 ,天 文学 家 利用 哈 勃 太空 望远镜 在 太阳 系 外 发 
现 5 颗 行星 ,它们 的 大 气 层 中 都 有 水 存在 的 迹 
象 ,是 首次 能 确定 性 地 测量 多 个 系 外 行星 的 大 气 
光谱 信号 特征 与 强度 ,并 进行 比较 。 

据 国 外 媒体 报道 ,美国 宇航 局 即将 在 2018 
年 发 射 的 麻 姆 斯 - 书 伯 太空 望远镜 是 哈 孝 望远镜 
的 继承 者 ,这 架 价值 88 亿美 元 的 空间 望远镜 有 
望 揭 开 宇宙 的 奥秘 ,因此 它 素 有 “时 间 机 器 ”的 美 


图 4-8 ” 哈 勃 太空 望远镜 
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名 。 这 架 巨 大 的 空间 望远镜 于 美国 当地 时 间 2016 年 2 月 4 日 ,由 美国 宇航 局 成 功 完成 最 
后 一 片 镜片 的 安装 ,这 也 成 为 该 望远镜 十 余 载 建造 史上 的 一 座 重 要 的 里 程 碑 。 

在 位 于 马里 兰州 的 美国 宇航 局 葬 达 德 航天 飞行 中 心 的 洁净 室内 ,研究 团队 使 用 机 械 
手 对 韦伯 望远镜 进行 组 装 。 经 过 机 械 愤 测量 ,韦伯 望远镜 的 每 一 片 六 角形 镜片 的 对 角 线 
都 大 于 4.2 英尺 ,相当 于 1.3 米 ,这 个 尺寸 大 约 和 咖啡 桌 一 般 大 小 ,每 片 镜片 的 重量 大 约 
重 88 磅 ,相当 于 40 千克 (图 4-9)。 


图 4-9 韦伯 太空 望远镜 

美国 宇航 局 副 局 长 约翰 - 格 伦 费 尔 德 表示 ,工程 师 们 孜孜 不 倦 地 完成 了 这 些 不 可 思 
议 、. 近 乎 完美 的 镜片 的 安装 ,人 类 距离 解 开 宇宙 形成 奥秘 的 神秘 面纱 又 近 了 一 步 
(图 4-10) 。 


图 4-10 安装 镜片 


美国 宇航 局 韦伯 望远镜 的 最 大 特点 是 它 拥有 一 个 网 球场 大 小 的 5 层 遮阳 板 , 能 够 将 
太阳 的 灼热 减弱 至 一 百 万 分 之 一 。 为 了 保证 科学 探索 的 成 功 , 书 伯 望远镜 的 镜片 需要 精 
确 排列 。 在 极 寒 条 件 下 , 当 温 度 介 于 零下 406 到 零下 343 华氏 度 时 ,望远镜 的 底板 位 移 不 
得 超过 38 纳米 ,大 约 是 人 类 毛发 直径 的 千 分 之 一 (图 4-11) 。 

韦伯 望远镜 预计 于 2018 年 发 射 , 它 将 成 为 世界 上 规模 最 大 、 功 能 最 强 的 望远镜 。 它 
的 能 力 将 达到 哈 过 望 远 镜 的 100 倍 , 能 够 观察 到 宇宙 大 爆炸 后 两 亿 年 的 场景 。 一 旦 完成 
太空 全 面部 署 ,18 片 基 本 镜片 将 和 一 片 直 径 为 21.3 英尺 (6.5 米 ) 的 大 镜片 一 道 运作 。 

与 目前 在 地 球 近 地 轨道 上 运行 的 哈 勃 望远镜 不 同 ,韦伯 望远镜 的 目的 地 更 加 逐 远 。 


第 (4 这 大 数据 时 人 的 思 约 变价 


图 4-11 韦伯 望远镜 外 观 


它 将 被 发 射 到 一 个 被 称 为 L2 的 地 方 , 即 日 地 拉 格 朗 日 点 2, 该 点 位 于 距离 地 球 表面 大 约 
930 000 英里 (150 万 千 米 ) 的 高 度 ( 图 4-12)。 


图 4-12 韦伯 望远镜 的 目的 地 


美国 宇航 局 表示 ,韦伯 太空 望远镜 是 一 部 拥有 红外 视觉 的 强大 的 时 间 机 器 , 它 能 够 回 
到 135 亿 年 前 的 宇宙 ,探索 在 早期 宇宙 的 黑暗 中 形成 的 第 一 批 星球 与 星系 。150 万 千 米 
的 超 远 轨道 使 得 它 能 够 保持 低温 运作 ,以 免 其 观测 受到 自身 红外 线 和 外 界 辐射 的 影响 
(图 4-13) 。 


Seeing back into the cosmos 


图 4-13 拥有 红外 视觉 的 韦伯 望远镜 
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书 伯 望远镜 拥有 许多 科技 成 果 , 它 的 总 体 造价 高 达 88 亿美 元 , 远 运 超过 了 最 初 3.5 亿 
美元 ,接近 2. 33 亿 英 镑 的 预算 .此 事 也 引起 了 立法 者 的 关注 , 堪 称 是 史上 最 昂贵 的 空间 望 
远 镜 (图 4-14) 。 


JWST Launch/Deployment Timeline Ge9 


(L+30min) 
prten Earth Separation from LV 


(L+27 days) 
Sunshiald Fwd UPS 
Deployment 


人 L+ 5.5 days) 


(L+7.5& 8.6 days) 
Gimbaled Antenna Assy PMBA Wing 
(GAA) Deployment Deployments 
(L+ 14 days) 


(L+* 3.1days) 
Sunshleld AR UPS 和 
Deployment 六 人 yp 
(L+ 6.3days) = 
SMSS Dopleyment 大 四 

+ 1 days) 

Primary Mirror 

SegmentAssy 

Deployment 


图 4-14 造价 昂贵 的 韦伯 望远镜 
资料 来 源 : 罗 辑 编译 ,腾讯 太空 ,2016 年 2 月 7 日 
【实验 与 思考 】 
深入 理解 大 数据 时 代 的 三 个 思维 变革 
1. 实验 目的 


(1) 熟悉 大 数据 时 代 思 维 变革 的 基本 概念 和 主要 内 容 ; 
(2) 分 析 理 解 在 传统 情况 下 ,人 们 分 析 信息 .了 解 世界 的 主要 方法 ,理解 大 数据 时 代 ， 
人 们 思维 变革 的 三 大 转变 


2. 工具 /准备 工作 


在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 
需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 


3. 实验 内 容 与 步骤 


(1) 大 数据 时 代 人 们 分 析 信 息 、 理 解 世界 的 三 大 转变 是 指 什么 ? 
和 


人 背 : 


(OY) 
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贸 同 图 内 久 所 是 人 的 周明 久久 


(2) 请 简 述 ,在 大 数据 时 代 , 为 什么 要 “分 析 与 某 事物 相关 的 所 有 数据 ,而 不 是 依靠 分 
析 少 量 的 数据 样本 ”? 
答 : 


(3) 请 简 述 ,在 大 数据 时 代 , 为 什么 “我 们 乐于 接受 数据 的 纷繁 复杂 ,而 不 再 一 味 追 求 
其 精确 性 ”? 
答 : 


(4) 什么 是 数据 的 因果 关系 ? 什么 是 数据 的 相关 关系 ? 
答 : 


(5) 请 简 述 ,在 大 数据 时 代 ,为 什么 “我 们 不 再 探求 难以 捉摸 的 因果 关系 , 转 而 关注 事 


物 的 相关 关系 ”? 


答 : 


攻 


4. 实验 总 结 


5. 实验 评价 (教师 ) 


大 数据 促进 医疗 与 健康 


【导读 案例 】 
大 数据 变革 公共 卫生 


2009 年 出 现 了 一 种 新 的 流感 病毒 甲 型 HIN1. 这 种 流感 结合 了 导致 合流 感 和 猪 流感 
的 病毒 的 特点 ,在 短 短 几 周 之 内 迅速 传播 开 来 (图 5-1) 。 全 球 的 公共 卫生 机 构 都 担心 一 
场 致命 的 流行 病 即 将 来 歼 。 有 的 评论 家 其 至 警告 说 ,可 能 会 爆发 大 规模 流感 ,类 似 于 
1918 年 在 西班牙 暴发 的 影响 了 5 亿 人 口 并 车 走 了 数 千 万 人 性 命 的 大 规模 流感 。 更 炎 糕 
的 是 ,我 们 还 没有 研发 出 对 抗 这 种 新 型 流感 病毒 的 疫苗 。 公 共 卫 生 专 家 能 做 的 只 是 减 慢 
它 传 播 的 速度 。 但 要 做 到 这 一 点 ,他 们 必须 先知 道 这 种 流感 出 现在 哪里 。 


图 5-1 甲 型 HINI1 流感 疫情 全 球 流 行 示意 图 


美国 ,和 所 有 其 他 国家 一 样 ,都 要 求 医生 在 发 现 新 型 流感 病例 时 告知 疾病 控制 与 预防 
中 心 。 但 由 于 人 们 可 能 患 病 多 日 实在 受 不 了 了 才 会 去 医院 ,同时 这 个 信息 传达 回 疾 控 中 
心 也 需要 时 间 , 因 此 ,通告 新 流感 病例 时 往往 会 有 一 两 周 的 延迟 ,而 且 , 疾 控 中 心 每 周 只 进 
行 一 次 数据 汇总 。 然 而 ,对 于 一 种 飞速 传播 的 疾病 .信息 滞后 两 周 的 后 果 将 是 致命 的 。 这 
种 滞后 导致 公共 卫生 机 构 在 疫情 暴发 的 关键 时 期 反而 无 所 适 从 。 

在 甲 型 H1N1 流感 暴发 的 几 周 前 ,互联 网 巨头 谷歌 公司 的 工程 师 们 在 《自然 } 杂 志 上 
发 表 了 一 篇 引 人 注 目的 论文 。 它 令 公共 卫生 官员 们 和 计算 机 科学 家 们 感到 震惊 。 文 中 解 
释 了 谷歌 为 什么 能 够 预测 冬季 流感 的 传播 : 不 仅 是 全 美 范围 的 传播 ,而 且 可 以 具体 到 特 
定 的 地 区 和 州 。 谷 歌 通过 观察 人 们 在 网 上 的 搜索 记录 来 完成 这 个 预测 ,而 这 种 方法 以 前 
一 直 是 被 忽略 的 。 谷 歌 保 存 了 多 年 来 所 有 的 搜索 记录 ,而 且 每 天 都 会 收 到 来 自 全 球 超过 


大 上 烧 量 局 的 


三 十 亿 条 的 搜索 指令 ,如 此 庞大 的 数据 资源 足以 支撑 和 帮助 它 完成 这 项 工作 。 

谷歌 公司 把 5000 万 条 美国 人 最 频繁 检索 的 词 条 和 美国 疾 控 中 心 在 2003 一 2008 年 间 
季节 性 流感 传播 时 期 的 数据 进行 了 比较 。 他 们 希望 通过 分 析 人 们 的 搜索 记录 来 判断 这 些 
人 是 否 患 上 了 流感 ,其 他 公司 也 曾 试 图 确定 这 些 相 关 的 词 条 ,但 是 他 们 缺乏 像 谷歌 公司 一 
样 庞大 的 数据 资源 、 处 理 能 力 和 统计 技术 。 

虽然 谷歌 公司 的 员工 猜测 ,特定 的 检索 词 条 是 为 了 在 网 络 上 得 到 关于 流感 的 信息 ,如 
“哪些 是 治疗 咳嗽 和 发 热 的 药物 ”, 但 是 找 出 这 些 词 条 并 不 是 重点 ,他 们 也 不 知道 哪些 词 条 
更 重要 。 更 关键 的 是 ,他 们 建立 的 系统 并 不 依赖 于 这 样 的 语义 理解 。 他 们 设立 的 这 个 系 
统 唯一 关注 的 就 是 特定 检索 词 条 的 使 用 频率 与 流感 在 时 间 和 空间 上 的 传播 之 间 的 联系 。 
谷歌 公司 为 了 测试 这 些 检索 词 条 ,总 共处 理 了 4.5 亿 个 不 同 的 数学 模型 。 在 将 得 出 的 预 
测 与 2007 年 .2008 年 美国 疾 控 中 心 记 录 的 实际 流感 病例 进行 对 比 后 ,谷歌 公司 发 现 ,他 
们 的 软件 发 现 了 45 条 检索 词 条 的 组 合 ,将 它们 用 于 一 个 特定 的 数学 模型 后 ,他 们 的 预测 
与 官方 数据 的 相关 性 高 达 97%。 和 疾 控 中 心 一 样 ,他 们 也 能 判断 出 流感 是 从 哪里 传播 出 
来 的 ,而 且 判 断 非常 及 时 ,不 会 像 疾 控 中 心 一 样 要 在 流感 爆发 一 两 周 之 后 才 可 以 做 到 。 

所 以 ,2009 年 甲 型 HIN1 流感 爆发 的 时 候 , 与 习惯 性 滞后 的 官方 数据 相 比 ,谷歌 成 为 
一 个 更 有 效 、 更 及 时 的 指标 。 公 共 卫 生机 构 的 官员 获得 了 非常 有 价值 的 数据 信息 。 惊 人 
的 是 ,谷歌 公司 的 方法 甚至 不 需要 分 发 口腔 试纸 和 联系 医生 一 一 它 是 建立 在 大 数据 的 基 
础 之 上 的 。 这 是 当今 社会 所 独 有 的 一 种 新 型 能 力 ; 以 一 种 前 所 未 有 的 方式 ,通过 对 海量 数 
据 进行 分 析 , 获 得 有 巨大 价值 的 产品 和 服务 ,或 深刻 的 洞 见 。 基 于 这 样 的 技术 理念 和 数 
据 储备 ,下 一 次 流感 来 袭 的 时 候 , 世 界 将 会 拥有 一 种 更 好 的 预测 工具 ,以 预防 流感 的 
传播 。 

阅读 上 文 ,请 思考 、 分 析 并 简单 记录 : 

(1) 谷歌 预测 流感 主要 采用 的 是 什么 方法 ? 

答 : 


(2) 谷歌 预测 流感 爆发 的 方法 与 传统 的 医学 手段 有 什么 不 同 ? 
答 : 


(3) 在 现代 医学 的 发 展 中 ,你 认为 大 数据 还 会 有 哪些 用 武之 地 ? 


第 5 这 大 履 锯 人保 和 进 医疗 与 信康 


(4) 请 简单 描述 你 所 知道 的 上 一 周 内 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
答 : 


51 大 数据 与 循 证 医学 


循 证 医学 (Evidence-Based Medicine,EBM) , 意 为 “遵循 证 据 的 医学 ”, 又 称 实证 医学 ， 
其 核心 思想 是 医疗 决策 ( 即 病 人 的 处 理 , 治 疗 指南 和 医疗 政策 的 制定 等 ) 应 在 现 有 的 最 好 
的 临床 研究 依据 基础 上 做 出 ,同时 也 重视 结合 个 人 的 临床 经 验 ( 图 5-2)。 


随机 对 照 研 究 
队列 研究 
病例 对 照 研究 、 系 列 病例 或 报告 


图 5-2 循 证 医学 金字 塔 


第 一 位 循 证 医学 的 创始 人 科 克 伦 (1909 一 1988) ,是 英国 的 内 科 医 生 和 流行 病 学 家 ,他 
1972 年 在 牛津 大 学 提出 了 循 证 医学 思想 。 第 二 位 循 证 医学 的 创始 人 费 恩 斯 坦 (1925 一 )， 
是 美国 耶鲁 大 学 的 内 科学 与 流行 病 学 教授 ,他 是 现代 临床 流行 病 学 的 开山 鼻祖 之 一 。 第 
三 位 循 证 医学 的 创始 人 萨 科 特 (1934 一 ”) 也 是 美国 人 ,他 曾经 以 肾脏 病 和 高 血压 为 研究 
课题 , 先 在 实验 室 中 进行 研究 .后 来 又 进行 临床 研究 ,最 后 转向 临床 流行 病 学 的 研究 。 

就 实质 而 言 , 循 证 医学 的 方法 与 内 容 来 源 于 临床 流行 病 学 。 费 恩 斯 坦 在 美国 的 《临床 
药理 学 与 治疗 学 杂志 上 ,以 “临床 生物 统计 学 ”为 题 ,从 1970 年 到 1981 年 的 11 年间 , 共 
发 表 了 57 篇 的 连载 论文 .他 的 论文 将 数理 统计 学 与 逻辑 学 导入 到 临床 流行 病 学 ,系统 地 
构建 了 临床 流行 病 学 的 体系 ,被 认为 富 含 极其 敏锐 的 洞察 能 力 , 因 此 为 医学 界 所 推崇 。 

传统 医学 以 个 人 经 验 、 经 验 医学 为 主 , 即 根据 非 实验 性 的 临床 经 验 、 临 床 资料 和 对 疾 
病 基础 知识 的 理解 来 诊治 病人 (图 5-3)。 在 传统 医学 下 .医生 根据 自己 的 实践 经 验 、 高 年 
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资 医师 的 指导 ,教科 书 和 医学 期 刊 上 零散 的 研究 报告 为 依据 来 处 理 病 人 。 其 结果 是 : 一 
些 真正 有 效 的 疗法 因 不 为 公众 所 了 解 而 长 期 未 被 临床 采用 ;一 些 实践 无 效 芮 至 有 害 的 疗 
法 因 从 理论 上 推断 可 能 有 效 而 长 期 广泛 使 用 。 

循 证 医学 不 同 于 传统 医学 。 循 证 医学 并 非 要 取代 临床 技能 ,临床 经 验 ,临床 资料 和 医 
学 专业 知识 , 它 只 是 强调 任何 医疗 决策 应 建立 在 最 佳 科 学 研究 证 据 基础 上 。 循 证 医学 实 
践 既 重视 个 人 临床 经 验 又 强调 采用 现 有 的 .最 好 的 研究 证 据 , 两 者 缺 一 不 可 (图 5-4) 。 


循 证 医学 


图 5-3 ”传统 医学 是 以 经 验 医学 为 主 图 5-4 循 证 医学 重视 个 人 临床 经 验 ， 
也 强调 研究 证 据 


1992 年 ,来 自 安 大 略 麦 克 马 斯 特大 学 的 两 名 内 科 医 生 戈 登 。 盖 伊 特 和 大 卫 。 萨 基 特 
发 表 了 呼吁 使 用 “ 循 证 医学 ”的 宣言 。 他 们 的 核心 思想 很 简单 。 医 学 治疗 应 该 基于 最 好 的 
证 据 , 而 且 如 果 有 统计 数据 的 话 , 最 好 的 证 据 应 来 自 对 统计 数据 的 研究 。 但 是 , 盖 伊 特 和 
萨 基 特 并 非 主张 医生 要 完全 受制 于 统计 分 析 ,他 们 只 是 希望 统计 数据 在 医疗 诊断 中 起 到 
更 大 的 作用 。 

医生 应 该 特别 重视 统计 数据 的 这 种 观点 ,直到 今天 仍 颇 受 争议 。 从 广义 上 来 说 ,努力 
推广 循 证 医学 ,就 是 在 努力 推广 大 数据 分 析 , 事 关 统 计 分 析 对 实际 决策 的 影响 。 对 于 循 证 
医学 的 争论 在 很 大 程度 上 是 关于 统计 学 是 否 应 该 影响 实际 治疗 决策 的 争论 。 当 然 , 其 中 
很 多 研究 仍 在 利用 随机 试验 的 威力 ,只 不 过 现在 风险 大 得 多 。 由 于 循 证 医学 运动 的 成 功 ， 
一 些 医生 在 把 数据 分 析 结 果 与 医疗 诊断 相 结合 方面 已 经 加 快 了 步伐 。 互 联网 在 信息 追溯 
方面 的 进步 已 经 促进 了 一 项 影响 深远 的 技术 的 发 展 ,而 且 利 用 数据 做 出 决策 的 过 程 也 达 
到 了 前 所 未 有 的 速度 。 


52 大 数据 带 来 的 医疗 新 突破 


根据 美国 疾病 控制 中 心 (CDC) 的 研究 ,心脏 病 是 美国 的 第 一 大 致命 杀手 ,每 年 250 万 
的 死亡 人 数 中 , 约 有 60 万 人 死 于 心脏 病 , 而 癌症 紧 随 其 后 (在 中 国 , 癌 症 是 第 一 致命 杀手 ， 
心血 管 疾病 排名 第 二 )。 在 25 一 44 岁 的 美国 人 群 中 ,1995 年 ,艾滋 病 是 致死 的 头号 原因 
(现在 已 降 至 第 6 位 )。 死 者 中 每 年 仅 有 2/3 的 人 死 于 自然 原因 。 那 么 那些 情况 不 严重 但 
影响 深远 的 疾病 又 如 何 呢 , 比 如 普通 感冒 ? 据 统计 ,美国 民众 每 年 总 共 会 得 10 亿 次 感冒 ， 
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平均 每 人 三 次 。 普 通 感冒 是 各 种 鼻 病 毒 引 起 的 ,其 中 大 约 有 99 种 已 经 排序 ,种 类 之 多 是 
普通 感冒 长 久 以 来 如 此 难 治 的 根源 所 在 。 

在 医疗 保健 方面 的 应 用 ,除了 分 析 并 指出 非 自 然 死亡 的 原因 之 外 ,大 数据 同样 也 可 以 
增加 医疗 保健 的 机 会 .提升 生活 质量 ,减少 因 身体 素质 差 造成 的 时 间 和 生产 力 损失 。 

以 美国 为 例 ,通常 一 年 在 医疗 保健 上 要 花费 27 万 亿美 元 , 即 人 均 8650 美元 。 随 着 人 
均 寿 命 增 长 ,婴儿 出 生死 亡 率 降 低 ,更 多 的 人 患 上 了 慢性 病 ,并 长 期 受 其 困扰 。 如 今 , 因 为 
注射 疫苗 的 小 孩 增 多 ,所 以 减少 了 5 岁 以 下 小 孩儿 的 死亡 数 。 而 除了 非洲 地 区 ,肥胖 症 已 
成 为 比 营养 不 良 更 严重 的 问题 。 在 比尔 与 美 琳 达 。 盖 茨 基金 会 以 及 其 他 人 资助 的 研究 
中 ,科学 家 发 现 ,虽然 世界 人 口 寿命 变 长 ,但 人 们 的 身体 素质 却 下 降 了 。 所 有 这 些 都 表明 
我 们 急需 提供 更 高 效 的 医疗 保健 , 尽 可 能 地 帮助 人 们 跟踪 并 改善 身体 健康 。 
5.2.1 量化 自我 ,关注 个 人 健康 

谷歌 联合 创始 人 谢 尔 盖 ， 布 林 的 妻子 安妮 ， 沃 西 基 ( 同 时 也 是 公司 的 首席 执行 官 ) 
2006 年 创办 了 DNA 人 D( 图 5-5) 测 试 和 数据 分 析 公 司 23andMe。 公 司 并 非 仅 限于 个 人 健康 
信息 的 收集 和 分 析 ,而 是 将 眼光 放 得 更 远 ,将 大 数据 应 用 到 了 个 人 遗传 学 上 ,至今 已 分 析 
了 超过 二 十 万 人 的 唾液 (图 5-6) 。 


welcome 
toyou 


图 5-5 基因 DNA 图 片 图 5-6 23andMe 的 DNA 测试 


通过 分 析 人 们 的 基因 组 数据 ,公司 确认 了 个 体 的 遗传 性 疾病 ,如 帕 金 森 氏 病 和 肥胖 症 
等 遗传 倾向 。 通 过 收集 和 分 析 大 量 的 人 体 遗 传 信息 数据 ,该 公司 不 仅 希 望 可 以 识别 个 人 遗 
传 风险 因素 以 帮助 人 们 增强 体质 并 延年益寿 ,而 且 希 望 能 识别 更 普遍 的 趋势 。 通 过 分 析 , 公 
司 已 确定 了 约 一 百 八 十 个 新 的 特征 ,例如 所 谓 的 “ 见 光 喷 咕 反 射 ", 即 人 们 从 阴暗 处 移动 到 阳 
光明 媚 的 地 方 时 会 有 打 喷 喧 的 倾向 ;还 有 一 个 特征 则 与 人 们 对 药草 、 香 菜 的 喜 恶 有关 。 

事实 上 ,利用 基因 组 数据 来 为 医疗 保健 提供 更 好 的 洞悉 是 自 1990 年 以 来 所 做 努力 的 
合情合理 的 下 一 步 。 人 类 基因 计划 组 (HGP) 绘 制 出 总 数 约 有 23 000 组 的 基因 组 ,而 这 所 
有 的 基因 组 也 最 终 构 成 了 人 类 的 DNA。 这 一 项 目 费 时 13 年 ,耗资 38 亿美 元 。 

值得 一 提 的 是 ,存储 人 类 基因 数据 并 不 需要 多 少 空 间 。 有 分 析 显 示 , 人 类 基因 存储 空 
间 仅 占 20MB, 和 在 iPod 中 存 几 首 歌 所 占 的 空间 差不多 。 其 实 随意 挑选 两 个 人 ,他 们 的 


中 DNA: 脱氧 核糖 核酸 (Deoxyribonucleic Acid) ,又 称 去 氧 核糖 核酸 ,是 一 种 分 子 ,可 组 成 遗传 指令 ,以 引导 生 
物 发 育 与 生命 机 能 运作 。 
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DNA 约 99.5% 都 完全 一 样 。 因 此 ,通过 参考 人 类 基因 组 的 序列 ,也 许可 以 只 存储 那些 将 
此 序列 转化 为 个 人 特有 序列 所 必需 的 基因 信息 。 

DNA 最 初 的 序列 在 捕捉 的 高 分 辩 率 图 像 中 显示 为 一 列 DNA 片段 。 虽然 个 人 的 
DNA 信息 以 及 最 初 的 序列 形式 会 占据 很 大 空间 ,但 是 ,一 旦 序列 转化 为 DNA 的 As、Cs、 
Gs 和 Ts, 任 何人 的 基因 序列 就 都 可 以 被 高 效 地 存储 下 来 。 

数据 规模 大 并 不 一 定 能 称 其 为 大 数据 。 真 正体 现 大 数据 能 量 的 是 不 仅 要 具备 收集 数 
据 的 能 力 , 还 要 具备 低 成 本 分 析 数 据 的 能 力 。 虽 然 , 人 类 最 初 的 基因 组 序列 分 析 耗 资 约 
38 亿美 元 ,不 过 ,如 今 只 需 花 大 概 99 美元 就 能 在 23andMe 网 站 上 获取 自己 的 DNA 分 
析 。 业 内 专家 认为 ,基因 测序 成 本 在 短 短 10 年 内 跌 了 几 个 数量 级 。 

当然 , 仅 有 DNA 测序 不 足以 提升 人 们 的 健康 ,也 需要 在 日 常生 活 中 做 出 改变 。 


5.2.2 可 穿戴 的 个 人 健康 设备 


Fitbit 是 美国 的 一 家 移动 电子 医疗 公司 (图 5-7) ,致力 于 研发 和 推广 健康 乐 活 产品 ， 
从 而 帮助 人 们 改变 生活 方式 ,其 目标 是 通过 使 保持 健康 变 得 有 趣 来 让 其 变 得 更 简单 。 
2015 年 6 月 19 日 Fitbit 上 市 ,成 为 纽 交 所 可 穿戴 设备 的 第 一 股 。 该 公司 所 售 的 一 项 设备 
可 以 跟踪 用 户 一 天 的 身体 活动 ,还 有 晚间 的 睡眠 模式 。Fitbit 公司 还 提供 一 项 免费 的 苹 
果 手 机 应 用 程序 ,可 以 让 用 户 记 录 他 们 的 食物 和 液体 摄 入 量 。 通 过 对 活动 水 平和 营养 摄 
入 的 跟踪 ,用 户 可 以 确定 哪些 有 效 .哪些 无 效 。 营 养 学 家 建议 ,准确 记录 食物 和 活动 量 是 
控制 体重 的 最 重要 一 环 , 因 为 数字 明确 且 具 有 说 服 力 。Fitbit 公司 正在 收集 关于 人 们 身 
体 状况 ,个 人 习惯 的 大 量 信息 。 如 此 一 来 , 它 就 能 将 图 表 呈 现 给 用 户 , 从 而 帮助 用 户 直观 
地 了 解 自己 的 营养 状况 和 活动 水 平 ,而 且 , 它 能 就 可 改善 的 方面 提出 建议 。 


图 5-7 Fitbit 设备 


耐克 公司 推出 了 类 似 的 产品 Nike 十 FuelBand, 即 一 条 可 以 戴 在 手腕 上 收集 每 日 活动 
数据 的 手 环 。 这 一 设备 采用 了 内 置 加 速 传感器 来 检测 和 跟踪 每 日 的 活动 ,诸如 跑步 .散步 
以 及 其 他 体育 运动 。 加 上 Nike Plus 网 站 和 手机 应 用 程序 的 辅助 ,这 一 设备 令 用 户 可 以 
更 加 方便 地 跟踪 自己 的 活动 行为 . 设 定 目标 并 改变 习惯 。 耐 克 公 司 也 为 其 知名 的 游戏 系 
统 提 供 训练 计划 ,使 用 户 在 家 也 能 健身 。 使 用 这 一 款 软件 ,用 户 就 可 以 和 朋友 或 其 他 人 在 
健身 区 一 起 训练 。 这 一 想法 旨 在 让 健身 活动 更 有 乐趣 、 更 加 轻松 ,同时 也 更 社交 化 。 

另 一 款 设备 是 可 穿戴 技术 商 身 体 媒体 公司 (Body Media) 推 出 的 BodyMedia 臂 带 , 它 
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每 分 钟 可 捕 提 到 五 千 多 个 数据 点 ,包括 体温 、 汗 液 \ 步 伐 、 卡 路 里 消耗 及 睡眠 质量 等 。 

Strava 公司 通过 将 这 些 挑战 搬 到 室外 ,把 现实 世界 的 运动 和 虚拟 的 比赛 结合 在 一 起 。 
公司 推出 的 适用 于 芋 果 手机 和 安 卓 系统 的 跑步 和 骑 车 程序 ,为 充分 利用 体育 活动 的 竞技 
属性 而 经 过 了 专门 的 设计 。 健 身 爱好 者 可 以 通过 拍摄 各 种 真实 的 运动 片段 来 角逐 排行 
榜 , 比 如 挑战 单车 上 险 坡 等 ,并 在 Strava 网 站 上 对 他 们 的 情况 进行 比较 。 

据 出 自 美国 心脏 协会 的 文章 ( 非 活动 状态 的 代价 》 称 ,65% 的 成 年 人 不 是 肥胖 就 是 超 
重 。 自 1950 年 以 来 , 久 坐 不 动 的 工作 岗位 增加 了 83%, 而 仅 有 25% 的 劳动 者 从 事 的 是 身 
体 活动 多 的 工作 。 美 国人 平均 每 周 工作 47 个 小 时 , 相 比 20 年 前 ,每 年 的 工作 时 间 增 加 了 
164 个 小 时 。 而 肥胖 的 代价 就 是 , 据 估 计 , 美 国 公司 每 年 与 健康 相关 的 生产 力 损失 高 达 
2258 亿美 元 。 因 此 ,类 似 Fitbit 和 Nike 十 FuelBand 这 样 的 设备 对 不 断 推 高 医疗 保健 和 
个 人 健康 的 成 本 确实 有 影响 。 

另 一 个 苹果 手机 的 应 用 程序 可 以 通过 审视 面部 或 检测 指 尖 上 脉搏 跳动 的 频率 来 检查 
心率 。 生 理 反馈 应 用 程序 公司 Azumio 的 程序 被 下 载 了 两 千 多 万 次 ,这 些 程序 几乎 无 所 
不 能 ,从 检测 心率 到 承 压 水 平 测试 都 可 以 。 随 着 前 来 体验 测量 的 用 户 数据 不 断 增加 ,公司 
就 足以 提供 更 多 建设 性 的 保健 建议 。 

Azumio 公司 已 推出 了 一 款 叫 “健身 达 人 ”的 健身 应 用 程序 ,还 有 一 款 叫做 “睡眠 时 
间 ” 的 应 用 , 它 可 以 通过 苹果 手机 检测 睡眠 周期 。 这 样 的 应 用 程序 为 大 数据 和 保健 相 结 合 
提供 了 有 趣 的 可 能 性 。 通 过 这 些 应 用 程序 收集 到 的 数据 ,可 以 了 解 正在 发 生 什 么 以 及 自 
己 的 身体 状况 走势 怎样 。 比 如 说 ,如 果 心 律 不 齐 ,就 表示 健康 状况 出 现 了 某 种 问题 。 通 过 
分 析 数 百 万 人 的 健康 数据 ,科学 家 们 可 以 开发 更 好 的 算法 来 预测 我 们 未 来 的 健康 状况 。 

回溯 过 去 ,检测 身体 健康 发 展 情况 需要 用 到 特殊 的 设备 ,或 是 不 辞 辛苦 、 花 费 高 额 就 
诊 费 去 医生 办 公 室 问 诊 。 新 型 应 用 程序 最 引 人 瞩 目的 一 面 是 : 它们 使 得 健康 信息 的 检测 
变 得 更 简单 易 行 。 低 成 本 的 个 人 健康 检测 程序 以 及 相关 技术 甚至 “唤醒 "了 全 民 对 个 人 健 

新 应 用 程序 表明 , 当 配 备 合 适 的 软件 时 , 低 价 的 设备 或 唾 手 可 得 的 智能 手机 可 以 帮助 
我 们 收集 到 很 多 健康 数据 。 将 这 种 数据 收集 能 力 、 低 成 本 的 分 析 、` 可 视 化 云 服 务 与 大 数据 
以 及 个 人 健康 领域 相 结合 ,将 在 提升 健康 状况 和 减低 医疗 成 本 方面 发 挥 出 巨大 的 潜力 。 

就 如 大 数据 的 其 他 领域 一 样 ,改善 医疗 和 普及 医疗 的 进展 前 景 位 于 两 者 的 交汇 
处 一 一 相对 低 价 的 数据 收集 感应 器 的 持续 增多 ,如 苹果 手机 和 为 其 定制 的 医疗 附加 软件 ， 
以 及 这 些 感应 器 生成 的 大 数据 量 的 攀升 。 通 过 把 病例 数字 化 和 能 为 医生 提供 更 优 信息 的 智 
能 系统 相 结合 ,不管 是 在 家 还 是 医 诊室 ,大 数据 都 有 望 对 人 们 的 身体 健康 产生 重大 影响 。 


5.2.3 大 数据 时 代 的 医疗 信息 


就 算 有 了 这 些 可 穿戴 设备 与 应 用 程序 ,人 们 依然 需要 去 看 医生 。 大 量 的 医疗 信息 收 
集 工作 依然 靠 纸 笔 进行 。 纸 笔记 录 的 优势 在 于 方便 ,快捷 、 成 本 低廉 。 但 是 ,因为 纸 笔 做 
的 记录 会 分 散在 多 处 ,这 就 会 导致 医疗 工作 者 难以 找到 患者 的 关键 医疗 信息 。 

2009 年 颁布 的 美国 (卫生 信息 技术 促进 经 济 和 临床 健康 法 案 》(HITECH) 旨 在 促进 
医疗 信息 技术 的 应 用 ,尤其 是 电子 健康 档案 (EHRs) 的 推广 。 法 案 也 在 2015 年 给 予 医 疗 
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工作 者 经 济 上 的 激励 ,鼓励 他 们 采用 电子 健康 档案 ,同时 会 对 不 采用 者 施 以 处 罚 。 电 子 病 
历 (EMRs, 图 5-8) 是 纸 质 记录 的 电子 档 , 如 今 许多 医生 都 在 使 用 。 相 比 之 下 ,电子 健康 档 
案 意图 打造 病人 健康 概况 的 普通 档案 ,这 使 得 它 能 被 医疗 工作 者 轻易 接触 到 。 医 生还 可 
以 使 用 一 些 新 的 APP 应 用 程序 ,在 苹果 平板 电脑 苹果 手机 、 搭 载 安 卓 系统 的 设备 或 网 页 
浏览 器 上 收集 病人 的 信息 。 除 了 可 以 收集 过 去 用 纸 笔记 录 的 信息 之 外 ,医生 们 还 将 通过 
这 些 程序 实现 从 语言 转换 到 文本 的 听写 、 收 集 图 像 和 视频 等 其 他 功能 。 
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图 5-8 电子 病历 


电子 健康 档案 .DNA 测试 和 新 的 成 像 技 术 在 不 断 产生 大 量 数据 。 收 集 和 存储 这 些 数 
据 对 于 医疗 工作 者 而 言 是 一 项 挑战 ,也 是 一 个 机 遇 。 不 同 于 以 往 采用 的 封闭 式 的 医院 IT 
系统 ,更 新 .更 开放 的 系统 与 数字 化 的 病人 信息 相 结合 可 以 带 来 医疗 突破 。 

如 此 种 种 分 析 也 会 给 人 们 带 来 别 样 的 见解 。 比 如 说 ,智能 系统 可 以 提醒 医生 使 用 与 
自己 通常 推荐 的 治疗 方式 相关 的 其 他 治疗 方式 和 程序 。 这 种 系统 也 可 以 告知 那些 忙碌 无 
暇 的 医生 某 一 领域 的 最 新 研究 成 果 。 这 些 系统 收集 ,存储 的 数据 量 大 得 惊人 。 越 来 越 多 
的 病 患 数据 会 采用 数字 化 形式 存储 。 不 仅 是 我 们 填写 在 健康 问卷 上 或 医生 记录 在 表格 里 
的 数据 ,还 包括 苹果 手机 和 苹果 平板 电脑 等 设备 以 及 新 的 医疗 成 像 系统 (比如 XX 光 机 和 
超 音 设备 ) 生 成 的 数字 图 像 。 

就 大 数据 而 言 ,这 意味 着 未 来 将 会 出 现 更 好 、 更 有 效 的 患者 看 护 ,更 为 普及 的 自我 监 
控 以 及 防护 性 养生 保健 ,当然 也 意味 着 要 处 理 更 多 的 数据 。 其 中 的 挑战 在 于 ,要 确保 所 收 
集 的 数据 能 够 为 医疗 工作 者 以 及 个 人 提供 重要 的 见解 。 


5.2.4 ”CellMiner 一 一 对 抗 癌 症 的 新 工具 


所 谓 PSA, 是 指 前 列 腺 特异 抗原 。PSA 偏 高 与 前 列 腺 癌症 紧密 相关 。 即 使 检查 本 身 
并 没有 显示 有 癌 细 胞 ,而 PSA 偏 高 的 人 通常 会 被 诊断 出 患 有 前 列 腺 癌 。 是 否 所 有 PSA 
高 的 人 都 患 有 癌症 ,这 难以 确诊 。 对 此 ,一 方面 ,患者 可 以 选择 不 采取 任何 行动 .但 是 必须 
得 承受 病症 慢 慢 加 重 的 心理 压力 ,也 许 终 有 一 日 会 遍 至 全 身 , 而 他 已 无 力 解 决 ; 另 一 方面 ， 
患者 可 以 采取 行动 ,比如 进行 一 系列 的 治疗 ,从 激素 治疗 到 手术 切除 ,再 到 完全 切除 前 列 
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腺 ， 但 结果 也 可 能 更 糖 。 选择 对 于 患者 而 言 , 既 简单 又 复杂 。 
这 其 中 包含 两 个 数据 使 用 方面 的 重要 经 验 教 训 。 

(1) 数据 可 以 帮助 人 们 看 得 更 深入 。 数 据 可 以 传送 更 多 的 相关 经 验 , 使 得 计算 机 能 
够 预知 人 们 想 看 的 电影 、. 想 买 的 书籍 。 但 是 ,涉及 医药 治疗 时 ,通常 来 说 ,就 如 何 处 理 这 些 
见解 这 一 问题 ,制定 决策 可 不 容易 。 

(2) 数据 提供 的 见解 会 不 断 变化 发 展 。 这 些 见 解 都 是 基于 当时 的 最 佳 数据 。 正 如 试 
图 通过 模式 识别 出 诈骗 的 诈骗 检测 系统 在 基于 更 多 数据 时 能 配备 更 好 的 算法 并 实现 系统 
优化 一 样 , 当 我 们 掌握 了 更 多 的 数据 后 ,对 于 不 同 的 医疗 情况 会 有 不 同 的 推荐 方案 。 

对 男性 来 说 ,致死 的 癌症 主要 是 肺癌 、 前 列 腺 癌 、 肝 癌 以 及 大 肠 癌 ,而 对 于 女性 来 说 ， 
致死 的 癌症 主要 是 肺癌 、 乳 腺 癌 和 大 肠 癌 。 抽 烟 是 引起 肺癌 的 首要 原因 。1946 年 抽烟 人 
数 占 美国 人 口 的 45% ,1993 年 降 至 25%, 到 了 2010 年 降 至 19.3%。 但 是 ,肺癌 患者 的 5 
为 15%, 且 这 一 数字 已 经 维持 40 年 未 变 。 尽 管 如 今 已 经 是 全 民 抗 癌 , 但 目前 
仍 没 有 癌症 防治 的 通用 方法 。 很 大 原因 在 于 癌症 并 不 止 一 种 一 一 目前 已 发 现 两 百 多 种 不 
同 种 类 的 癌症 。 

美国 国家 癌症 研究 所 CNCI) 隶属 于 美国 国立 卫生 研究 院 , 每 年 用 于 瘤 症 研究 的 预算 
约 为 五 十 亿美 元 。 癌 症 研究 所 取得 的 最 重大 进展 就 是 开发 了 一 些 测 试 ,可 以 检测 出 某 些 
癌症 ,比如 2004 年 开发 的 预测 结肠 癌 的 简单 血液 测试 。 其 他 进展 包括 将 癌症 和 某 些 特定 
病因 联系 在 一 起 。 比 如 1954 年 一 项 研究 首次 表明 吸烟 和 肺癌 有 很 大 关联 ,1955 年 的 一 
项 研究 则 表明 男性 荷尔蒙 罕 丸 素 会 促 生 前 列 腺 瘤 ,而 女性 雌 激 素 会 促 生 乳腺 瘤 。 当 然 , 更 
大 的 进展 还 是 在 癌症 治疗 方法 上 。 比 如 ,发 现 了 树 突 状 细胞 ,这 是 提取 癌症 疫苗 的 基础 ; 
还 发 现 了 肿瘤 通过 生成 一 个 血管 网 ,为 自己 带 来 生长 所 需 的 氧气 的 过 程 。 

美国 国家 癌症 研究 所 癌症 研究 中 心 (NCD 研 制 的 “细胞 矿工 ”CellMiner) 是 一 个 基 
ee 涵盖 了 上 千 种 药物 的 基因 组 靶 息 的 工具 , 它 为 研究 人 员 提 供 了 大 量 的 基 

因 公式 和 化 学 复合 物 数据 。 这 样 的 技术 让 癌症 研究 变 得 高 效 。 该 工具 可 帮助 研究 人 员 用 
于 抗 瘤 药 物 与 其 靶 点 的 筛选 , 极 大 提高 了 工作 效率 。 通 过 药物 和 基因 靶 点 的 海量 数据 相 
比较 ,研究 者 可 更 容易 地 辨别 出 针对 不 同 的 瘤 细 胞 具有 不 同 效果 的 药物 。 过 去 ,处理 这 些 
数据 集 意 味 着 要 处 理 运作 不 便 的 数据 库 , 因 而 ,分 析 和 汇聚 数据 也 就 异常 艰难 。 从 历史 角 
度 来 看 , 想 用 数据 来 解答 疑问 和 可 以 接触 到 这 些 数据 的 人 不 重生 和 且 有 很 大 代沟 。 而 如 “ 细 
胞 矿工 ”一 样 的 科技 正 是 缩小 这 一 代沟 的 工具 。 研 究 者 们 用 “细胞 矿工 ”的 前 身 , 即 一 个 名 
为 “对 比 ”(COMPARE) 的 程序 来 确认 一 种 具 
备 抗 癌 性 的 药物 .事实 证 明 , 它 确实 有 助 于 治 
疗 一 些 淋巴 瘤 。 而 现在 ,研究 者 们 使 用 “细胞 
矿工 ” 弄 清 生物 标记 ,以 了 解 治疗 方法 有 望 对 
哪些 患者 起 作用 。 

CellMiner 软件 以 60 种 癌 细 胞 为 基础 .其 
NCI-60 细胞 系 是 目前 使 用 最 广泛 的 用 于 抗 癌 
药物 测试 的 癌 细 胞 样本 群 (图 5-9)。 用 户 可 以 
通过 它 查询 到 NCI-60 细胞 系 中 已 确认 的 图 5-9 装载 NCL60 细胞 系 的 细胞 板 
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22 379 个 基因 ,以 及 20 503 个 已 分 析 的 化 合 物 的 数据 (包括 102 种 已 获 美国 食品 和 药物 
监督 局 批准 的 药物 ) 。 

研究 者 认为 ,影响 力 最 大 的 因素 之 一 是 可 以 更 容易 地 接触 到 数据 。 这 对 于 癌症 研究 
者 ,或 是 对 那些 想 充 分 利用 大 数据 的 人 而 言 是 至 关 重 要 的 一 课 一 一 除非 收集 到 的 大 量 数 
据 可 以 轻易 为 人 所 用 ,否则 他 们 能 发 挥 的 作用 就 很 有 限 。 大 数据 民主 化 , 即 开放 数据 ,至 
关 重 要 。 


53 医疗 信息 数字 化 


医疗 领域 的 循 证 试验 已 经 有 一 百 多 年 的 历史 了 。 早 在 19 世纪 40 年 代 , 奥 地 利 内 科 
医生 伊 格 纳 蒋 。 塞 麦 尔 维 斯 就 在 维也纳 完成 了 一 项 关于 产科 临床 的 详细 的 统计 研究 。 塞 
麦 尔 维 斯 在 维也纳 大 学 总 医院 首次 注意 到 ,如 果 住 院 医生 从 验尸 房 出 来 后 马上 为 产妇 接 
生 , 产 妇 死亡 的 概率 更 大 。 当 他 的 同事 兼 好 朋友 杰克 伯 “。 克 莱 斯 卡 死 于 剖腹 产 时 的 热 毒 
症 时 , 塞 麦 尔 维 斯 得 出 一 个 结论 : 孕妇 分 娩 时 的 发 烧 具 有 传染 性 。 他 发 现 , 如 果 诊所 里 的 
医生 和 护士 在 给 每 位 病人 看 病 前 用 含 氯 石灰 水 洗手 消毒 ,那么 死亡 率 就 会 从 12% 下 降 
到 2%。 

这 一 最 终 产生 病理 细菌 理论 的 惊人 发 现 遇 到 了 强烈 的 阻力 , 塞 麦 尔 维 斯 也 受到 其 他 
医生 的 嘲笑 。 他 主张 的 一 些 观 点 缺乏 科学 依据 ,因为 他 没有 充分 解释 为 什么 洗手 会 降低 
死亡 率 ,医生 们 不 相信 病人 的 死亡 是 由 他 们 所 引起 的 ,他 们 还 抱怨 每 天 洗 好 几 次 手 会 浪费 
他 们 宝贵 的 时 间 。 塞 麦 尔 维 斯 最 终 被 解雇 ,后 来 他 精神 严重 失常 ,并 在 精神 病院 去 世 , 享 
年 47 岁 。 

塞 麦 尔 维 斯 的 死 是 一 个 悲剧 ,成 千 上 万 产妇 不 必要 的 死亡 更 是 一 种 悲剧 ,不 过 都 已 成 
为 历史 ,现在 的 医生 当然 知道 卫生 的 重要 性 。 然 而 ,时 至 今日 ,医生 们 不 愿 洗手 仍 是 一 个 
致命 的 隐患 。 不 过 最 重要 的 是 ,医生 是 否 应 该 因为 统计 研究 而 改变 自己 的 行为 方式 ,至 今 
仍 颇 受 质 疑 。 

唐 。 博 威 克 是 一 名 儿科 医生 ,也 是 保健 改良 协会 的 会 长 ,他 鼓励 进行 一 些 大 胆 的 对 比 
试验 。 十 几 年 以 来 , 博 威 克 一 直 致 力 于 减少 医疗 事故 ,他 也 与 塞 麦 尔 维 斯 一 样 努力 根据 循 
证 医学 的 结果 提出 简单 的 改革 建议 。 

1999 年 发 生 的 两 件 不 同 寻常 的 事情 ,使 得 博 威 克 开 始 对 医院 系统 进行 广泛 的 改革 。 
第 一 件 事 是 ,医学 协会 公布 的 一 份 权威 报告 ,记录 了 美国 医疗 领域 普遍 存在 的 治疗 失误 。 
据 该 报告 估计 ,每 年 医院 里 有 98 000 人 死 于 可 预防 的 治疗 失误 。 医 学 协会 的 报告 使 博 威 
克 确 信和 治疗 失误 的 确 是 一 大 隐患 。 

第 二 件 事 是 发 生 在 博 威 克 自己 身上 的 事情 。 博 威 克 的 妻子 安 患 有 一 种 罕见 的 疹 椎 自 
体 免 疫 功 能 亲 乱 症 。 在 三 个 月 的 时 间 里 ,她 从 能 够 完成 28km 的 阿拉 斯 加 跨国 滑雪 比赛 
变 得 几乎 无 法 行走 。 使 博 威 克 震 惊 的 是 ,他 妻子 所 在 医院 懒散 的 治疗 态度 。 每 次 新 换 的 
医生 都 不 断 重复 地 询问 同样 的 问题 ,甚至 不 断 开 出 已 经 证 明 无 效 的 药物 。 主 治 医生 在 决 
定 使 用 化 疗 来 延缓 安 的 健康 状况 的 “关键 时 刻 ? 之 后 的 足 足 60 个 小 时 , 安 才 吃 到 最 终 开 出 
的 第 一 剂 药 。 而 且 有 三 次 , 安 被 半夜 留 在 医院 地 下 室 的 担架 床上 , 既 性 恐 不 安 又 孤单 
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寂寞 。 

安 住院 治疗 , 博 威 克 就 开始 担心 。 他 已 经 失去 了 耐性 ,他 决定 要 做 点 儿 什么 了 。2004 
年 12 月 ,他 大 胆 地 宣布 了 一 项 在 未 来 一 年 半 中 挽救 10 万 人 生命 的 计划 。“10 万 生命 运 
动 ”是 对 医疗 体系 的 挑战 ,敦促 他 们 采取 6 项 医疗 改革 来 避免 不 必要 的 死亡 。 他 并 不 仅仅 
希望 进行 细 枝 末节 的 微小 变革 ,也 不 要 求 提高 外 科 手 术 的 精度 。 不 ,与 之 前 的 塞 麦 尔 维 斯 
一 样 ,他 希望 医院 能 够 对 一 些 最 基本 的 程序 进行 改革 。 例 如 ,很 多 人 做 过 手术 后 处 于 空调 
环境 中 会 引发 肺 部 感染 。 随 机 试验 表明 ,简单 地 提高 病床 床 头 , 以 及 经 常 清洗 病人 口腔 ， 
就 可 以 大 大 降低 感染 的 几率 。 博 威 克 反复 地 观察 临危 病人 的 临床 表现 ,并 努力 找 出 可 能 
降低 这 些 特定 风险 的 干预 方法 的 大 规模 统计 数据 。 循 证 医学 研究 也 建议 进行 检查 和 复 
查 , 以 确保 能 够 正确 地 开 药 和 用 药 ,能够 采用 最 新 的 心脏 电击 疗法 ,以 及 确保 在 病人 刚 出 
现 不 良 症状 时 就 有 快速 反应 小 组 马上 赶 到 病 析 前 。 因 此 ,这 些 干预 也 都 成 为 *10 万 生命 
运动 ”的 一 部 分 。 

然而 , 博 威 克 最 令 人 吃惊 的 建议 是 针对 最 古 
老 的 传统 。 他 注意 到 每 年 有 数 千 位 ICU (重症 加 
强 护理 病房 ,图 5-10) 病 人 在 胸腔 内 放置 中 央 动 肪 
导管 后 感染 而 死 。 大 约 一 半 的 重症 看 护 病 人 有 中 
央 动 脉 导 管 ,而 ICU 感染 是 致命 的 。 于 是 ,他 想 
看 看 是 否 有 统计 数据 能 够 支持 降低 感染 概率 的 
方法 。 拒 

他 找到 了 《急救 医学 》 杂 志 上 2004 年 发 表 的 图 5-10 ICU 
一 篇 文章 ,文章 表明 系统 地 洗手 (再 配合 一 套 改良 
的 卫生 清洁 程序 ,比如 ,用 一 种 叫做 双 氯 苯 双 股 己 烷 的 消毒 液 清 洗 病 人 的 皮肤 ) 能 够 减少 
中 央 动 脉 导管 900% 以 上 感染 的 风险 。 博 威 克 预 计 , 如 果 所 有 医院 都 实行 这 套 卫 生 程序 ， 
就 有 可 能 每 年 挽救 25 000 人 的 生命 。 

博 威 克 认 为 ,医学 护理 在 很 多 方面 可 以 学 习 航 空 业 ,现在 的 飞行 员 和 乘务 人 员 的 自由 
度 比 以 前 少 得 多 。 他 向 联邦 航空 局 提出 ,必须 在 每 次 航班 起 飞 之 前 逐 字 逐 句 宣读 安全 警 
告 。“ 研 究 得 越 多 ,我 就 越 坚 信和, 医生 的 自由 度 越 少 ,病人 就 会 越 安 全 ,” 他 说 ,“ 听 到 我 这 么 
说 ,医生 会 很 讨厌 我 。” 

博 威 克 还 制定 了 一 套 有 力 的 推广 策略 。 他 不 知 疲倦 地 到 处 奔走 ,发表 慷慨 激昂 的 演 
说 。 他 的 演讲 有 时 听 起 来 就 像 是 复兴 大 会 上 的 宣讲 。 在 一 次 会 议 上 ,他 说 :“ 在 场 的 每 一 
个 人 都 将 在 会 议 期 间 挽救 5 个 人 的 生命 .他 不 断 地 用 现实 世界 的 例子 来 解释 自己 的 观 
点 ,他 深 深 痴迷 于 数字 。 与 没有 明确 目标 的 项 目 不 同 ,他 的 “10 万 生命 运动 "是 全 国 首 个 
明确 在 特定 时 间 内 挽救 特定 数目 生命 的 项 目 。 该 运动 的 口号 是 :“ 没 有 数字 就 没有 
时 间 。” 

该 运动 与 三 千 多 家 医院 签订 了 协议 ,涵盖 全 美 75% 的 医院 床位 。 大 约 有 1/3 的 医院 
同意 实施 全 部 6 项 改革 ,一 半 以 上 的 医院 同意 实施 至 少 三 项 改革 。 该 运动 实施 之 前 ,美国 
医院 承认 的 平均 死亡 率 大 约 是 2. 3%。 该 运动 中 平均 每 家 医院 有 200 个 床位 ,一 年 大 约 
有 10 000 个 床位 ,这 就 意味 着 每 年 大 约 有 230 个 病人 死亡 。 从 目前 的 研究 推断 , 博 威 克 
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认为 参与 该 运动 的 医院 每 8 个 床位 就 能 挽救 1 个 生命 。 或 者 说 ,200 个 床位 的 医院 每 年 
能 够 挽救 大 约 25 个 病人 的 生命 。 

参与 该 运动 的 医院 需要 在 参与 之 前 提供 18 个 月 的 死亡 率 数 据 ,并 且 每 个 月 都 要 更 新 
实验 过 程 中 的 死亡 人 数 。 很 难 估计 某 家 有 10 000 个 床位 的 医院 的 病人 死亡 率 下 降 是 否 
是 纯粹 因为 运气 。 但 是 ,如 果 分 析 3000 家 医院 实验 前 后 的 数据 ,就 可 能 得 到 更 加 准确 的 
估计 。 

实验 结果 非常 令 人 振奋 。2006 年 6 月 14 日 , 博 威 克 宣 布 该 运动 的 结果 已 经 超出 了 
预定 目标 。 在 短 短 18 个 月 里 ,这 6 项 改革 措施 使 死亡 人 数 预计 减少 了 122 342 人 。 当 
然 ,我 们 不 要 相信 这 一 确切 数字 。 部 分 原因 是 许多 医院 在 一 些 可 以 避免 的 治疗 失误 问题 
上 取得 的 进展 是 独立 的 ;即使 没有 该 运动 ,这 些 医院 也 有 可 能 会 改变 他 们 的 工作 方式 ,从 
而 挽救 很 多 生命 。 

无 论 从 哪个 角度 看 ,这 项 运动 对 于 循 证 医学 来 说 都 是 一 次 重大 胜利 。 可 以 看 到 ,“10 
万 生命 运动 ”的 核心 就 是 大 数据 分 析 。 博 威 克 的 6 项 干预 并 不 是 来 自 直觉 ,而 是 来 自 统计 
分 析 。 博 威 克 观察 数字 ,发 现 导致 人 们 死亡 的 真正 原因 ,然后 寻求 统计 上 证 明 能 够 有 效 降 
低 死亡 风险 的 干预 措施 。 


54 搜索 :超级 大 数据 的 最 佳 伙伴 


循 证 医学 运动 之 前 的 医学 实践 受到 了 医学 研究 成 果 缓 慢 低 效 的 传导 机 制 的 束缚 。 据 
美国 医学 协会 的 估计 ,“ 一 项 经 过 随机 控制 试验 产生 的 新 成 果 应 用 到 医疗 实践 中 ,平均 需 
要 17 年 ,而 且 这 种 应 用 还 非常 参差 不 齐 .” 医 学 科学 的 每 次 进步 都 伴随 着 巨大 的 麻烦 。 如 
果 医 生 们 没有 在 医学 院 或 者 住院 实习 期 间 学 会 这 些 东西 ,似乎 永远 也 把 握 不 住 好 机 会 。 

如 果 医 生 不 知道 有 什么 样 的 统计 结果 ,他 就 不 可 能 根据 统计 结果 进行 决策 。 要 使 统 
计 分 析 有 影响 力 ,就 需要 有 一 些 能 够 将 分 析 结果 传达 给 决策 制定 者 的 传导 机 制 。 大 数据 
分 析 的 崛起 往往 伴随 着 并 受益 于 传播 技术 的 改进 ,这 样 ,决策 制定 者 就 可 以 更 加 迅速 地 即 
时 获取 并 分 析 数 据 。 甚 至 在 互联 网 试验 的 应 用 中 ,我 们 也 已 经 看 过 传导 环节 的 自动 化 。 
Google AdWords 功能 不 仅 能 够 即时 报告 测试 结果 ,还 可 以 自动 切换 到 效果 最 好 的 那个 
网 页 。 大 数据 分 析 速 度 越 快 ,就 越 可 能 改变 决策 制定 者 的 选择 。 

与 其 他 使 用 大 数据 分 析 的 情况 相似 , 循 证 医学 运动 也 在 设法 缩短 传播 重要 研究 结果 
的 时 间 。 循 证 医学 最 核心 也 最 可 能 受 抵制 的 要 求 是 ,提倡 医生 们 研究 和 发 现 病人 的 问题 。 
一 直 * 跟 踪 研 究 ” 从 业 医 生 的 学 者 们 发 现 , 新 患者 所 提出 的 问题 大 约 有 2/3 会 对 研究 有 益 。 
这 一 比重 在 新 住院 的 病人 中 更 高 。 然 而 被 “跟踪 研究 ”的 医生 却 很 少 有 人 愿意 花 时 间 去 回 
答 这 些 问 题 。 

对 于 循 证 医学 的 批评 往往 集中 在 信息 荐 乏 上 。 反 对 者 声称 ,在 很 多 情况 下 根本 不 存 
在 能 够 为 日 常 治疗 决策 所 遇 到 的 大 量 问题 提供 指导 的 高 质量 的 统计 研究 。 抵 制 循 证 医学 
的 更 深层 原因 其 实 恰恰 相反 : 对 于 每 个 从 业 医生 来 说 ,有 太 多 循 证 信息 了 ,以 至 于 无 法 合 
理 地 吸收 利用 。 仅 以 冠 心病 为 例 ,每 年 有 三 千 六 百 多 篇 统计 方面 的 论文 发 表 。 这 样 , 想 跟 
踪 这 一 领域 的 学 者 必须 每 天 (包括 周末 ) 读 十 几 篇 文章 。 如 果 读 一 篇 文章 需要 15 分 钟 , 那 
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么 关于 每 种 疾病 的 文章 每 天 就 要 花 掉 两 个 半 小 时 。 显 然 ,要 求 医生 投入 如 此 多 的 时 间 去 
仔细 查阅 海量 的 统计 研究 资料 ,是 行 不 通 的 。 

循 证 医学 的 倡导 者 们 从 最 开始 就 意识 到 信息 追 索 技术 的 重要 性 , 它 使 得 从 业 医 生 可 
以 从 数量 巨大 且 时 时 变化 的 医学 研究 资料 中 提取 出 高 质量 的 相关 信息 。 网 络 的 信息 提取 
技术 使 得 医生 更 容易 查 到 特定 病人 特定 问题 的 相关 结果 。 即 使 现在 高 质量 的 统计 研究 文 
献 比 以 往 都 多 ,医生 在 大 海里 捞 针 的 速度 同时 也 提高 了 。 现 在 有 众多 计算 机 辅助 搜索 引 
擎 ,可 以 使 医生 接触 到 相关 的 统计 学 研究 。 

对 于 研究 结果 的 综述 通常 带 有 链接 ,这 样 医生 在 打开 链接 后 就 可 以 查看 全 文 以 及 引 
用 过 该 研究 的 所 有 后 续 研究 。 即 使 不 打开 链接 , 仅 从 “证 据 质量 水 平 * 中 ,医生 也 可 以 根据 
最 初 的 搜索 结果 了 解 到 很 多 。 现 在 ,每 项 研究 都 会 得 到 牛津 大 学 循 证 医学 中 心 研发 的 15 
等 级 分 类 法 中 的 一 个 等 级 ,以 便 使 读者 迅速 地 了 解 证 据 的 质量 。 最 高 等 级 (“1a”) 只 授 给 
那些 经 过 多 个 随机 试验 验证 后 都 得 到 相似 结果 的 研究 ,而 最 低 等 级 则 给 那些 仅 根据 专家 
意见 而 形成 的 疗法 。 

这 种 简洁 标注 证 据 质 量 的 变化 很 可 能 成 为 循 证 医学 运动 最 有 影响 力 的 部 分 。 现 在 ， 
从 业 医生 评估 统计 研究 提出 的 政策 建议 时 ,可 以 更 好 地 了 解 自己 能 在 多 大 程度 上 信赖 这 
种 建议 。 最 酷 的 是 ,大 数据 分 析 回 归 分 析 不 仅 可 以 做 预测 ,而 且 还 可 以 告诉 你 预测 的 精 
度 。 证 据 质量 水 平 也 是 如 此 。 循 证 医学 不 仅 提 出 治疗 建议 ,还 会 告诉 医生 支撑 这 些 建 议 
的 数据 质量 如 何 。 

证 据 的 评级 有 力 地 回应 了 反对 循 证 医学 的 人 ,他 们 认为 循 证 医学 不 会 成 功 ,因为 没有 
足够 的 统计 研究 来 回答 医生 所 需 回答 的 所 有 问题 。 评 级 使 专家 们 在 缺乏 权威 的 统计 证 据 
时 仍然 能 够 回答 紧迫 的 问题 。 这 要 求 他 们 显示 出 当前 知识 中 的 局 限 。 证 据 评 级 标准 也 很 
简单 , 却 是 信息 追 索 方面 的 重大 进步 。 受 到 威胁 的 医生 们 现在 可 以 浏览 大 量 网 络 搜索 的 
结果 ,并 把 道听途说 与 经 过 多 重 检验 的 研究 结果 区 别 开 来 。 

互联 网 的 开放 性 甚至 改变 了 医学 界 的 文化 。 回 归 分 析 和 随机 试验 的 结果 都 公布 出 
来 ,不 仅 是 医生 ,任何 有 时 间 用 Google 搜索 几 个 关键 词 的 人 都 可 以 看 到 。 医 生 越 来 越 感 
到 学 习 的 紧迫 性 ,不 是 因为 ( 较 年 轻 的 ) 同 事 们 告诉 他 们 要 这 样 做 ,而 是 因为 多 学 习 可 以 使 
他 们 比 病人 懂得 更 多 。 正 像 买 车 的 人 在 去 展厅 前 会 先 上 网 查看 一 样 ,许多 病人 也 会 登录 
Medline? 等 网 站 去 看 看 自己 可 能 患 上 什么 样 的 疾病 。Medline 网 站 最 初 是 供 医生 和 研 
究 人 员 使 用 的 。 现 在 ,1/3 以 上 的 浏览 者 是 普通 老百姓 。 互 联网 不 仅 改变 着 信息 传导 给 
医生 的 机 制 ,也 改变 着 科技 的 影响 力 , 即 病人 影响 医生 的 机 制 。 


55 数据 决策 的 成 功 崛 起 


循 证 医学 的 成 功 就 是 数据 决策 的 成 功 , 它 使 决策 的 制定 不 仅 基 于 数据 或 个 人 经 验 ,而 
且 基 于 系统 的 统计 研究 。 正 是 大 数据 分 析 颠 覆 了 传统 的 观念 并 发 现 受 体 阻 滞 剂 对 心脏 病 


四 ”Medline 是 美国 国立 医学 图 书馆 生产 的 国际 性 综合 生物 医学 信息 书目 数据 库 , 是 当前 国际 上 最 权威 的 生物 医 
学 文献 数据 库 。 


大 数据 号 这 


人 有 效 , 正 是 大 数据 分 析 证 明了 雌性 激素 疗法 不 会 延缓 女性 衰老 ,也 正 是 大 数据 分 析 导 致 
了 “10 万 生命 运动 ”的 产生 。 


5.5.1 数据 辅助 诊断 


迄今 为 止 ,医学 的 数据 决策 还 主要 限于 治疗 问题 。 几 乎 可 以 肯定 的 是 ,下 一 个 高 峰会 
出 现在 诊断 环节 。 

我 们 称 互联 网 为 信息 的 数据 库 , 它 已 经 对 诊断 产生 了 巨大 的 影响 。《 新 英格兰 医学 期 
刊 》 上 发 表 了 一 篇 文章 ,讲述 纽约 一 家 教学 医院 的 教学 情况 .“ 一 位 患 有 过 敏和 免疫 疾病 
的 人 带 着 一 个 得 了 痢疾 的 婴儿 ,罕见 的 皮疹 (“鳄鱼 皮 ') ,多 种 免疫 系统 异常 ,包括 T-cell 
功能 低下 ,( 胃 黏膜 的 ?组 织 红 血球 以 及 末梢 红血球 ,一 种 显然 与 X 染 色 体 有 关 的 基因 遗 
传 方式 (多 个 男性 亲人 幼年 天 折 )。” 主 治 医 师 和 其 他 住院 医生 经 过 长 时 间 讨 论 后 ,仍然 无 
法 得 出 一 致 的 正确 诊断 。 最 终 , 教 授 问 这 个 病人 是 否 做 过 诊断 ,她 说 她 确实 做 过 诊断 ,而 
且 她 的 症状 与 一 种 罕见 的 名 为 IPEX 的 疾病 完全 吻合 。 当 医生 们 问 她 怎么 得 到 这 个 诊断 
结果 时 ,她 回答 说 :“ 我 在 Google 上 输入 我 的 显著 症状 ,答案 马上 就 跳出 来 了 .主治 医师 
惊 得 目 瞎 口 呆 。“ 你 从 Google 上 搜 出 了 诊断 结果 ? ……… 难道 不 再 需要 我 们 医生 了 吗 ?” 互 
联网 使 得 年 轻 医生 不 再 依赖 教授 教学 作为 主要 的 知识 来 源 。 年 轻 医生 不 必 顺 从 德高望重 
的 前 人 的 经 验 。 他 们 可 以 利用 那些 不 会 给 他 们 带 来 烦恼 的 资源 。 


5.5.2 你 考虑 过 …… 了 吗 


一 个 名 叫 * 伊 沙 贝 尔 * 的 “诊断 -决策 支持 "软件 项 目 使 医生 可 以 在 输入 病人 的 症状 后 
就 得 到 一 系列 最 可 能 的 病因 。 它 甚至 还 可 以 告诉 医生 病人 的 症状 是 否 是 由 于 过 度 服 用 药 
物 ,涉及 药物 达 四 千 多 种 。“ 伊 沙 贝尔 "数据库 涉及 一 万 一 千 多 种 疾病 的 大 量 临 床 发 现 、 实 
验 室 结果 、 病 人 的 病史 ,以 及 其 本 身 的 症状 。“ 伊 沙 贝 尔 * 的 项 目 设计 人 员 创 立 了 一 套 针对 
所 有 疾病 的 分 类 法 ,然后 通过 搜索 报刊 文章 的 关键 词 找 出 统计 上 与 每 个 疾病 最 相关 的 文 
章 , 如 此 形成 一 个 数据 库 。 这 种 统计 搜索 程序 显著 地 提高 了 给 每 个 疾病 /症状 匹配 编码 的 
效率 。 而 且 如 果 有 新 的 且 高 相关 性 的 文章 出 现时 ,可 以 不 断 更 新 数据 库 。 大 数据 分 析 对 
于 相关 性 的 预测 并 不 是 一 劳 永 逸 的 逻辑 搜索 , 它 对 “ 伊 沙 贝尔 ”的 成 功 至 关 重 要 。 

“ 伊 沙 贝 尔 ? 项 目的 产生 来 自 于 一 个 股票 经 纪 人 被 误诊 的 痛苦 经 历 。1999 年 , 詹 森 … 
莫 德 三 岁 大 的 女儿 伊 沙 贝尔 被 伦敦 医院 住院 医生 误诊 为 水 癌 , 并 遗 送 回 家 。 只 过 了 一 天 ， 
她 的 器 官 便 开 始 衰竭 ,该 医院 的 主治 医生 约瑟夫 。 布 里 托 马 上 意识 到 她 实际 上 感染 了 
一 种 潜在 致命 性 食肉 病毒 。 尽 管 伊 沙 贝 尔 最终 康 复 , 但 是 她 父亲 却 非 常 后 怕 , 他 辞去 
了 金融 领域 的 工作 。 葛 德 和 布 里 托 一 起 成 立 了 一 家 公司 ,开始 开发 “ 伊 沙 贝尔 ”软件 以 
抗击 误诊 。 

研究 表明 ,误诊 占 所 有 医疗 事故 的 1/3。 尸 体 解 剖 报告 也 显示 ,相当 一 部 分 重大 疾病 
是 被 误诊 的 .“ 如 果 看 看 已 经 开 出 的 错误 诊断 记录 ," 布 里 托 说 “诊断 失误 大 约 是 处 方 失 
误 的 两 三 售 .” 最 低估 计 有 几 百 万 病人 被 诊断 成 错误 的 疾病 在 接受 治疗 。 其 至 更 糟糕 的 
是 ,2005 年 刊登 在 (美国 医学 协会 杂志 》 上 的 一 篇 社论 总 结 道 , 过 去 的 几 十 年 间 , 并 未 看 到 
误诊 率 得 到 了 明显 的 改善 。 
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“ 伊 沙 贝尔 ?项 目的 雄伟 目标 是 改变 诊断 科学 的 停滞 现状 。 莫 德 简单 地 解释 道 :“ 计 
算 机 比 我 们 记得 更 多 更 好 。 ?世界 上 有 一 万 一 千 多 种 疾病 ,而 人 类 的 大 脑 不 可 能 熟练 地 记 
住 引发 每 种 疾病 的 所 有 症状 。 实 际 上 ,“ 伊 沙 贝尔 ”的 推广 策略 类 似 用 Google 进行 诊断 ， 
它 可 以 帮助 人 们 从 一 个 庞大 的 数据 库 里 搜索 并 提取 信息 。 

误诊 最 大 的 原因 是 武断 。 医 生 认 为 他 们 已 经 做 出 了 正确 的 诊断 一 一 正如 住院 医生 认 
为 伊 沙 贝尔 。 莫 德 得 了 水 疗 一 一 因此 他 们 不 再 思考 其 他 的 可 能 性 。“ 伊 沙 贝 尔 ” 就 是 要 提 
醒 医 生 其 他 可 能 。 它 有 一 页 会 向 医生 提问 ,“ 你 考虑 过 …… 了 吗 ” 就 是 在 提醒 其 他 的 可 能 
性 ,这 可 能 会 产生 深远 的 影响 。 

2003 年 ,一 个 来 自 乔治 亚 州 乡下 的 4 岁 男孩 被 送 入 亚特兰大 的 一 家 儿童 医院 。 这 个 
男孩 已 经 病 了 好 几 个 月 了 ,一 直 高 烧 不 退 。 血 液化 验 结果 表明 这 个 孩子 患 有 白血病 ,医生 
决定 进行 强度 较 大 的 化 疗 , 并 打算 第 二 天 就 开始 实施 。 

约 输 ， 博 格 萨 格 是 这 家 医院 的 资深 肿瘤 专家 ,他 观察 到 孩子 皮肤 上 有 褐色 的 斑点 ,这 
不 怎么 符合 白血病 的 典型 症状 。 当 然 , 博 格 萨 格 仍 需要 进行 大 量 研究 来 证 实 , 而 且 很 容易 
信赖 血液 化 验 的 结果 ,因为 化 验 结果 清楚 地 表明 是 白血病 。“ 一 旦 你 开始 用 这 些 临床 方法 
的 一 种 ,就 很 难 再 去 测量 ”, 博 格 萨 格 说 。 很 巧合 的 是 , 博 格 萨 格 刚刚 看 过 一 篇 关于 “ 仇 沙 
贝尔 ”的 文章 ,并 签约 成 为 软件 测试 者 之 一 。 因 此 , 博 格 萨 格 没 有 忙 着 研究 下 一 个 病例 ,而 
是 坐 在 计算 机 前 输入 了 这 个 男孩 的 症状 。 靠 近 “ 你 考虑 过 …… 了 吗 * 上 面 的 地 方 显示 这 是 
一 种 罕见 的 白血病 ,化 疗 不 会 起 作用 。 博 格 萨 格 以 前 从 没 听 说 过 这 种 病 ,但 是 可 以 很 肯定 
的 是 ,这 种 病 常 常会 使 皮肤 出 现 褐色 斑点 。 

研究 人 员 发 现 .10% 的 情况 下 .“ 伊 沙 贝尔 "能够 帮助 医生 把 他 们 本 来 没有 考虑 的 主要 
诊断 考虑 进来 。“ 伊 沙 贝尔 "坚持 不 懈 地 进行 试验 。《 新 英格兰 医学 期 刊 》F“ 伊 沙 贝 尔 ” 的 
专 版 每 周 都 有 一 个 诊断 难题 。 简 单 地 剪 切 、 粘 贴 病人 的 病史 ,输入 到 * 伊 沙 贝尔 "中 ,就 可 
以 得 到 10 一 30 个 诊断 列表 。 这 些 列表 中 75% 的 情况 下 涵盖 了 经 过 《新 英格兰 医学 期 刊 》 
(往往 通过 尸体 解剖 ) 证 实 为 正确 的 诊断 。 如 果 再 进一步 手动 把 搜索 结果 输入 到 更 精细 的 
对 话 框 中 ,“ 伊 沙 贝 尔 * 的 正确 率 就 可 以 提高 到 96%。“ 伊 沙 贝 尔 ” 不 会 挑选 出 一 种 诊断 结 
果 。““ 伊 沙 贝 尔 ’ 不 是 万 能 的 ”, 布 里 托 说 。“ 伊 沙 贝尔 ”其 至 不 能 判断 哪 种 诊断 最 有 可 能 
正确 ,或 者 给 诊断 结果 排序 。 不 过 ,把 可 能 的 病因 从 11 000 种 降低 到 30 种 未 经 排序 的 疾 
病 已 经 是 重大 的 进步 了 。 


5.5.3 大 数据 分 析 使 数据 决策 崛起 


大 数据 分 析 将 使 诊断 预测 更 加 准确 。 目 前 这 些 软件 所 分 析 的 基本 上 仍 是 期 刊 文章 。 
“ 伊 沙 贝尔 ?的 数据 库 有 成 千 上 万 的 相关 症状 ,但 是 它 只 不 过 是 每 天 把 医学 期 刊 上 的 文章 
堆积 起 来 而 已 。 然 后 一 组 配 有 像 Google 这 样 的 语言 引擎 辅助 的 医生 ,搜索 与 某 个 症状 相 
关 的 已 公布 的 症状 ,并 把 结果 输入 到 诊断 结果 数据 库 中 。 

到 目前 为 止 ,如 果 你 去 看 病 或 者 住院 治疗 ,看 病 的 结果 绝 不 会 对 集体 治疗 知识 有 帮 
助 一 一 除非 在 极 个 别 的 情况 下 ,医生 决定 把 你 的 病例 写成 文章 投 到 期 刊 或 者 你 的 病例 恰 
好 是 一 项 特定 研究 的 一 部 分 。 从 信息 的 角度 来 看 ,我 们 当中 大 部 分 人 都 白白 死 掉 了 。 我 
们 的 生 或 者 死 对 后 代 起 不 到 任何 帮助 。 


大 数 电 导 哗 


医疗 记录 的 迅速 数字 化 意味 着 医生 们 可 以 利用 包含 在 过 去 治疗 经 历 中 丰富 的 整体 信 
息 , 这 是 前 所 未 有 的 (图 5-11) 。 未 来 一 两 年 内 ， 伊 沙 贝尔 ”就 能 够 针对 你 的 特定 症状 、 病 
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入 病人 的 症状 并 向 计算 机 求助 。“ 伊 沙 贝 尔 ” 
可 以 根据 治疗 记录 自动 提取 信息 并 做 出 预测 。 


| 是 TS 实际 上 , 伊 沙 贝尔 "近期 已 经 与 NextGen 合作 
> a 研发 出 一 种 结构 灵活 的 输入 区 软件 ,以 抓 取 最 
~ 关键 的 信息 。 在 传统 的 病历 记录 中 ,医生 非 系 


图 5-11 医疗 记录 数字 化 统 地 记 下 很 多 事后 看 来 不 太 相 关 的 信息 ,而 

NextGen 系统 地 收集 从 头 至 尾 的 信息 。 从 某 

种 意义 上 来 说 ,这 使 医生 不 再 单纯 地 扮演 记录 数据 的 角色 。 医 生得 到 的 数据 就 比 让 他 自 
己 做 病历 记录 所 能 得 到 的 信息 要 丰富 得 多 ,因为 医生 自己 记录 得 往往 很 简单 。 

大 数据 分 析 这 些 大 量 的 新 数据 能 够 使 医生 历史 上 第 一 次 有 机 会 即时 判断 出 流行 性 疾 
病 。 诊 断 时 不 应 该 仅 根据 专家 筛选 过 的 数据 ,还 根据 使 用 该 医疗 保健 体系 的 数 百 万 民众 
的 看 病 经 历 , 数 据 分 析 最 终 的 确 可 以 更 好 地 决定 如 何 诊断 。 

大 数据 分 析 使 数据 决策 崛起 。 它 让 你 在 回归 方程 的 统计 预测 和 随机 试验 的 指导 下 进 
行 决策 一 这 是 循 证 医学 真正 想 要 的 。 大 多 数 医生 (正如 我 们 已 经 看 过 和 即将 看 到 的 其 
他 决策 者 一 样 ) 仍 然 固守 成 见 , 认 为 诊断 是 一 门 经 验 和 直觉 最 为 重要 的 艺术 。 但 对 于 大 数 
据 天 才 来 说 ,诊断 只 不 过 是 另 一 种 预测 而 已 。 


【延伸 阅读 】 
谷歌 预测 流感 


当 人 们 利用 谷歌 进行 网 络 搜索 时 ,我 们 把 秘密 告诉 了 它 , 现在 它 也 开始 洞察 我 们 的 
病 体 。 互 联网 巨人 谷歌 的 一 支 研 发 团队 在 (自然 } 杂 志 上 发 表 论 文 , 详 细 介绍 谷歌 正在 利 
用 它 收 集 到 的 无 数 个 人 搜索 词汇 数据 , 赶 在 政府 流行 病 学 家 之 前 两 个 星期 来 预测 流感 的 
出 现 。 然 而 ,这 个 看 似 造福 于 人 的 流感 趋势 预报 却 引发 了 一 场 隐 私 保护 组 织 的 严厉 声讨 。 

如 今 , 在 美国 的 诊所 内 ,或许 会 碰 到 这 样 的 病人 , 当 他 边 “ 咳 嗽 ” 边 走 进来 的 时 候 , 带 着 
非常 肯定 的 口吻 告诉 医生 :“ 我 得 了 流感 ,我 已 经 在 网 上 得 知 了 我 的 病情 , 快 点 儿 给 我 开 
药方 吧 !” 

这 个 设想 基于 谷歌 在 2008 年 11 月 份 正式 推出 的 一 个 名 为 “谷歌 流感 趋势 "的 项 目 ， 
在 人 们 进行 网 络 搜 索 的 时 候 , 它 利用 了 人 们 在 网 上 对 他 们 的 健康 问题 寻求 帮助 的 趋势 来 
预测 流感 。 通 过 追踪 人像“ 咳嗽 ”“ 发 烧 ”" 和 “ 阁 痛 "这样 的 词汇 , 它 表明 已 经 能 够 准确 地 判断 
流感 在 哪里 扩散 。 

与 美国 疾病 控制 和 预防 中 心 (CDC) 通 常 需要 花费 数 星 期 整理 并 发 布 流感 疫情 报告 不 
同 ,谷歌 的 流感 趋势 报告 每 日 更 新 。 所 以 ,在 官方 的 健康 组 织 还 没有 发 布 健康 趋势 之 前 ， 
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搜索 引擎 就 能 利用 网 上 的 搜索 查询 内 容 来 预测 潜在 流感 的 发 生 。 

提前 14 天 准确 预测 流感 爆发 “谷歌 流感 趋势 ”的 发 明 者 是 谷歌 公司 的 两 名 软件 工程 
师 Jeremy Ginsberg 和 Matt Mohebb。 他 们 认为 :“ 谷 歌 搜索 显示 的 数据 分 布 模式 非常 有 
价值 ”他 们 在 关于 这 一 项 目的 日 志 中 写 道 : 结果 是 传统 的 流感 监测 系统 要 用 一 到 两 个 星 
期 来 收集 和 发 布 监测 数据 ,而 谷歌 搜索 查询 统计 却 是 在 很 短 的 时 间 内 自动 完成 的 “通过 
我 们 每 天 的 评估 ,流感 趋势 项 目 可 以 为 流感 的 爆发 提供 一 个 早期 预警 系统 。” 

谷歌 在 美国 的 9 个 地 区 就 这 一 观点 做 了 测试 并 且 发 现 它 比 联邦 疾病 控制 和 预防 中 心 
提前 了 7 一 14 天 准确 预测 了 流感 的 爆发 。 谷 歌 希 望 这 一 发 现 同样 能 帮助 预测 别 的 流行 
病 。 流 感 预测 目前 也 只 是 限于 在 美国 。 

如 今 谷 歌 流感 趋势 " 正 逐渐 受到 美国 官方 健康 组 织 的 认可 。 美 国 疾病 控制 和 预防 
中 心 正 打算 与 谷歌 合作 推广 该 项 目 ,提醒 内 科 医 生 以 及 公共 健康 组 织 在 流感 爆发 季 的 反 
应 ,减轻 疾病 的 传播 ,甚至 挽救 生命 。“ 这 些 数据 非常 非常 及 时 …… 谷歌 的 公布 速度 比 我 
们 快 上 一 个 星期 。 它 们 可 以 被 用 作 流 感 活动 来 临 的 提前 讯号 ”美国 疾病 控制 和 预防 中 心 
的 流感 检测 中 心 负责 人 Lyn Finelli 表示 ,“ 警 告发 出 得 越 早 ,预防 和 控制 措施 也 就 能 越 早 
到 位 。 而 这 能 够 预防 流感 的 爆发 。 流 感 导致 全 球 每 年 有 25 万 至 50 万 人 死 于 流感 ,而 研 
究 表 明 ,30% 一 40 史 的 美国 人 习惯 通过 登录 网 络 获取 健康 咨询 。” 

其 实 , 早 在 两 年 前 ,谷歌 公司 推出 的 风靡 全 球 的 三 维 卫星 地 图 软件 “谷歌 地 球 ” 就 开始 
被 人 们 拿 来 尝试 预测 流行 病 。2006 年 6 月 ,美国 科学 家 就 开始 利用 “谷歌 地 球 ” 搜 索 特 定 
区 域 . 利 用 卫星 图 片 形成 虚拟 三 维 地 图 的 服务 来 帮助 他 们 狙击 禽 流感 登陆 美国 。 科学 家 
们 说 ,谷歌 地 球 ” 对 于 他 们 的 好 处 在 于 它 能 提供 许多 细节 ,例如 大 型 养 鸡 场 周边 道路 、 学 
校 和 房屋 的 位 置 等 。 

麻 省 理工 学 院 斯 隆 商学 院 的 教授 托马斯 。 马 龙 在 接受 《纽约 时 报 》 采 访 时 对 谷歌 的 创 
意 赞赏 不 已 。 他 说 ,“ 使 用 谷歌 ,从 用 户 不 经 意 间 创 造 的 数据 来 看 世界 上 原本 看 不 见 的 模 
式 , 这 看 起 来 是 一 个 聪明 的 做 法 。” 

然而 ,自从 人 们 开始 享受 “谷歌 流感 趋势 " 带 来 的 福 社 后 ,也 不 禁 开始 担忧 起 自己 的 隐 
私 问题 。 尽 管 谷歌 高 级 法 律 顾问 迈克 。 杨 坚持 在 12 月 9 日 发 表 声 明 表 示 必 流感 趋势 "不 
包含 任何 个 人 身份 信息 。 他 说 :“' 流 感 趋势 "使 用 的 数据 是 从 几 亿 个 搜索 结果 中 聚合 而 
来 。 这 些 数据 不 包含 任何 能 够 确定 用 户 身份 的 信息 。 我 们 也 从 未 透露 过 究竟 有 多 少 用 户 
搜索 过 特定 的 关键 词 .” 但 相关 隐私 团体 仍 质疑 表示 ,谷歌 在 利用 搜索 结果 预测 流感 爆发 
的 方法 上 缺乏 透明 性 ,目前 还 没有 一 个 独立 的 机 构 来 审核 谷歌 究竟 是 如 何 将 用 户 的 搜索 
结果 转换 成 “流感 趋势 "服务 的 。 

“我 们 其 实 是 想 知道 ,谷歌 能 否 找到 一 种 方法 来 确保 他 们 的 聚合 数据 不 会 泄漏 究竟 是 
哪些 用 户 提 交 了 这 些 搜索 信息 ,他 们 的 这 一 技术 应 当 更 加 透明 。” 电 子 隐私 信息 中 心 主席 
马克 。 罗 登 伯 格 说 。 他 认为 ,这 一 问题 非常 重要 ,因为 谷歌 用 于 追踪 流感 爆发 的 技术 同样 
可 以 用 来 追踪 “非典 ”等 其 他 疾病 。 他 说 ;:“ 假 如 底特律 爆发 了 “非典 ,而 当局 又 希望 知道 
究竟 是 谁 提 交 了 相关 的 搜索 结果 ,那么 谷歌 如 何 保 证 这 些 信息 不 被 泄漏 ?” 

罗 登 伯 格 还 指出 ,根据 谷歌 的 隐私 政策 ,与 搜索 结果 相关 的 IP 地 址 都 会 在 9 个 月 后 
被 删除 ,但 与 此 相悖 的 是 , 当 谷 歌 推出 “流感 趋势 "时 ,他 们 却 表示 ,这 一 服务 不 仅 会 利用 当 
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前 的 搜索 结果 ,还 会 对 之 前 的 数据 进行 分 析 , 最 早 甚至 可 以 追溯 到 2003 年 。 

美国 网 络 民权 组 织 “ 数 字 民主 中 心 ” 的 执行 总 监 杰 弗 里 。 切 斯 特 则 指出 ,谷歌 发 布 “ 流 
感 趋势 "实际 上 是 向 医药 市 场 表明 ,谷歌 有 能 力 通过 其 搜索 结果 提供 复杂 而 精确 的 分 析 ， 
从 而 帮助 医药 厂商 发 布 更 为 精准 的 广告 “谷歌 已 经 意识 到 ,原本 毫 无 用 处 的 搜索 数据 可 
以 为 谷歌 创造 新 的 利润 来 源 。 向 其 数量 庞大 的 用 户 投放 健康 领域 的 定位 广告 将 非常 有 利 
可 图 。” 

计算 机 程序 设计 师 、 电 子 前 线 基 金 会 先锋 奖 获得 者 西 塞 。 凡 克 尔 斯 延 在 ( 卫 报 》 上 发 
表 评 论文 章 说 ,如 今 还 没有 一 种 有 效 的 解决 方案 把 “谷歌 流感 趋势 "从 “两 难 境地 ”中 解救 
出 来 ,因为 这 一 技术 是 福 是 祸 主 要 还 得 依赖 人 们 如 何 使 用 它 。 但 西 塞 同时 提醒 人 们 ,对 于 
疾病 监测 系统 一 定 要 抱 以 “小 心 翼 翼 ” 的 态度 。 

资料 来 源 : 周一 妍 ,外 滩 画 报 2008. 12. 26 


【实验 与 思考 】 
了 解 大 数据 及 其 在 线 支 持 


1. 实验 目的 

(1) 了 解 传统 医学 与 循 证 医学 ,理解 大 数据 对 循 证 医学 的 促进 作用 ; 

(2) 通过 因特网 搜索 与 浏览 ,了 解 更 多 大 数据 变革 公共 卫生 的 典型 案例 ,加 深 理解 大 
数据 在 医疗 与 健康 领域 的 应 用 前 景 。 

2. 工具 /准备 工作 

在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 

需要 准备 一 台 带 有 浏览 器 ,能够 访问 因特网 的 计算 机 。 

3. 实验 内 容 与 步骤 

(1) 在 本 章 课文 中 例 举 了 哪些 大 数据 促进 医疗 与 健康 的 典型 案例 ?这 些 案例 带 给 你 
哪些 启发 ? 

答 : 


(2) 请 思考 并 分 析 : 大 数据 环境 下 的 医疗 信息 数字 化 ,与 传统 医学 的 医院 管理 信息 
系统 (HMIS) 有 什么 不 同 ? 
答 


合 : 


钙 日 后 大 二 所 训 由 国 向 与 顶 圳 


(3) 为 什么 说 : 在 大 数据 时 代 , 循 证 医学 的 成 功 就 是 数据 决策 的 成 功 ? 请 简 述 。 
答 : 


(4)“ 谷 歌 预测 流感 "是 众多 大 数据 相关 文献 中 的 经 典 案例 ,请 认真 阅读 与 分 析 此 案 
例 , 并 简单 叙述 你 对 这 个 案例 的 理解 。 
答 : 


4. 实验 总 结 


5. 实验 评价 (教师 


大 数据 激发 创造 力 


【导读 案例 】 
Facebook 的 设计 决策 


Facebook 是 全 球 第 一 大 社交 网 络 服务 网 站 (图 6-1), 拥 有 约 九 亿 用 户 , 于 2004 年 2 
月 4 日 上 线 , 主 要 创始 人 为 美国 人 马克 。 扎 克 伯 格 。 据 说 ,网 站 的 名 字 Facebook 来 自传 
统 的 纸 质 “ 花 名 册 ”, 通 常 美 国 的 大 学 和 预科 学 校 把 这 种 印 有 学 校 社 区 所 有 成 员 的 “ 花 名 
册 ” 发 放 给 新 来 的 学 生 和 教职员 工 ,帮助 大 家 认识 学 校 的 其 他 成 员 。 


图 6-1 Facebook 


这 样 一 个 公司 ,其 任何 设计 决策 都 影响 了 很 多 人 。 因 此 ,大 多 数 情况 下 , 当 Facebook 
改变 其 设计 决策 时 ,用 户 一 般 都 不 会 接受 这 种 改变 。 事 实 上 ,他 们 还 会 讨厌 这 种 改变 。 

2006 年 , 当 Facebook 首次 推出 新 闻 供 稿 功 能 (News Feed) 时 , 几 十 万 名 学 生 对 这 一 
举措 提出 了 抗议 ,而 当时 ,社交 网 站 的 用 户 仅 有 800 万 人 。 然 而 在 后 来 ,新 闻 供 稿 功 能 发 
展 成 为 该 网 站 最 受 欢迎 的 功能 之 一 。Facebook 的 产品 总 监 亚 当 。 莫 瑟 里 曾 这 样 说 过 ,新 
闻 供 稿 功 能 是 网 站 流量 和 参与 度 的 主要 驱动 力 。 这 就 解释 了 为 什么 Facebook 在 做 决策 
时 会 采取 莫 瑟 里 提 到 的 数据 启示 方法 ,而 不 是 数据 驱动 型 方法 。 英 瑟 里 指出 ,许多 竞争 因 
素 会 启示 产品 的 设计 决策 ,并 强调 了 6 种 因素 : 定量 数据 、 定 性 数据 ,战略 利益 、 用 户 利 
益 、 网 络 利益 和 商业 利益 。 

定量 数据 揭示 了 人 们 实际 上 是 如 何 使 用 Facebook 产品 的 。 例 如 ,上 传 照 片 用 户 的 百 
分 比 ,或 一 次 上 传 多 张 照片 的 用 户 的 百分比 。 

据 莫 瑟 里 称 ,85% 的 网 站 内 容 是 由 20% 的 Facebook 用 户 ( 每 月 登录 时 间 超 过 25 天 
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的 用 户 ) 生 成 的 。 因 此 ,保证 更 多 的 用 户 会 在 网 站 上 生成 内 容 ( 例 如 上 传 照片 ) 至 关 重 要 。 

定性 数据 是 类 似 于 眼球 追踪 研究 结果 这 类 的 数据 。 当 你 浏览 网 页 时 ,眼球 追踪 研究 
会 对 眼球 的 运动 情况 进行 观察 。 眼 球 追 踪 研 究 还 会 为 产品 设计 师 提 供 关键 的 信息 ,使 他 
们 了 解 到 网 页 元 素 是 否 可 被 发 现 以 及 发 布 的 信息 是 否 有 用 。 这 种 研究 会 为 观察 者 提供 两 
种 以 上 的 不 同 设 计 , 让 他 们 看 到 哪 种 设计 会 产生 更 多 的 信息 保留 ,这 对 数字 书籍 设计 或 新 
闻 网 站 建设 非常 重要 。 

莫 瑟 里 还 强调 了 Facebook 的 问答 服务 , 即 向 好 友 提 出 问题 并 获得 答案 , 它 是 战略 利 
益 的 一 个 有 效 例子 。 这 些 利益 可 能 会 与 其 他 利益 竞争 ,或 对 其 他 利益 造成 强烈 的 冲击 。 
在 问答 服务 中 ,回答 问题 所 需 输入 的 字段 将 会 对 “用 户 在 思考 什么 ”造成 强烈 的 冲击 。 

网 络 利益 包含 许多 因素 ,如 市 场 竞争 以 及 私人 群体 或 政府 带 来 的 监管 问题 。 比 方 说 ， 
Facebook 必须 将 欧盟 的 输入 功能 并 入 其 地 址 功能 中 。 最 后 ,还 要 提 到 商业 利益 因素 ,这 
些 因素 会 影响 创收 和 盈利 能 力 。 

创收 可 能 会 与 用 户 增长 和 参与 度 相 互 竞争。 网 站 上 发 布 的 广告 越 多 ,在 短期 内 可 能 
会 产生 更 多 的 收入 ,但 是 从 长 期 来 看 ,用 户 的 参与 度 会 下 降 。 

英 瑟 里 指出 ,专门 依靠 数据 驱动 做 决策 所 面临 的 挑战 之 一 是 局 部 最 大 化 的 优化 风险 。 
他 举 了 两 个 例子 来 说 明 这 一 问题 : Facebook 的 照片 和 应 用 程序 。 

Facebook 上 传 原始 照片 的 设备 是 一 个 可 供 下 载 的 软件 ,用 户 必须 将 这 种 软件 安装 在 
他 们 的 网 页 浏览 器 中 。 在 使 用 苹果 Macintosh 计算 机 的 Safari 浏览 器 时 ,用 户 会 接收 到 
这 样 一 个 可 怕 的 警告 :“Facebook 的 一 个 小 程序 请 求 访 问 您 的 计算 机 。” 在 使 用 IE 浏览 
器 时 ,用 户 必须 下 载 一 个 ActiveX 控件 ,这 是 一 种 在 浏览 器 内 部 运行 的 软件 。 但 是 ,要 想 
安装 这 种 控件 ,他 们 必须 首先 找到 一 个 11 像素 的 黄色 条 形 框 一 一 当 控 件 存 在 时 ,这 个 黄 
色 条 形 框 会 向 他 们 发 出 提醒 。 

设计 团队 发 现 , 大 约 有 120 万 名 用 户 收 到 安装 上 传 软件 的 要 求 ,但 只 有 37 昕 的 用 户 
会 照 做 。 一 些 用 户 已 经 安装 了 上 传 软 件 ,但 大 多 数 用 户 没有 安装 。 所 以 ,Facebook 要 尽 
可 能 地 优化 这 种 照片 上 传 体验 。 设 计 团 队 不 得 不 重新 审视 照片 上 传 的 整个 过 程 ,他 们 必 
须 保 证 整个 过 程 的 操作 更 加 便捷 。 在 这 种 情况 下 ,大 数据 可 以 帮助 Facebook 实现 增 量 改 
进 , 但 它 并 不 能 为 这 个 团队 提供 一 种 全 新 的 设计 , 即 一 个 基于 全 新 上 传 工 具 的 设计 。 

而 随 着 Facebook 应 用 程序 的 出 现 , 比 如 像 ( 黑 帮 战 争 ) 和 《边境 小 镇 ) 这 类 广为人知 的 
游戏 ,Facebook 在 其 网 站 上 设置 了 导航 栏 ,这 种 设计 反而 限制 了 这 些 应 用 程序 的 访问 量 。 
虽然 设计 团队 在 现 有 的 布局 中 实现 增 量 改进 ,但 是 这 种 改进 的 影响 不 是 很 大 。 

正如 莫 瑟 里 所 言 真 正 的 创新 通常 会 导致 数据 变 差 。” 虽 然 数据 变 差 往往 会 导致 短期 
的 不 适应 (新 闻 供稿 功能 就 是 这 样 的 例子 ) ,但 从 长 远 来 看 ,这 些 活动 会 带 来 深远 的 影响 。 
Facebook 的 设计 不 受 这 些 短 期 数据 的 支配 。 在 谈 到 Facebook 以 往 的 设计 时 , 莫 瑟 里 强 
调 说 :“ 我 们 已 经 自主 设计 了 很 多 产品 "如果 你 感觉 这 些 话 听 起 来 有 点 儿 耳 熟 , 那 是 因为 
另 一 家 知名 的 技术 企业 也 是 用 这 种 方式 来 设计 产品 的 。 

阅读 上 文 , 请 思考 、 分 析 并 简单 记录 : 

(1) 你 怎么 理解 “大 多 数 情况 下 , 当 Facebook 改变 其 设计 决策 时 ,用 户 一 般 都 不 会 接 
受 这 种 改变 。 事 实 上 ,他 们 还 会 讨厌 这 种 改变 ”? 你 还 能 举 出 类 似 这 样 的 例子 吗 ? (考虑 


113 


QQ \ 微 信 、 网 游 、 手 游 的 发 展 。) 
答 : 


(2) 哪 6 种 因素 会 影响 到 Facebook 的 产品 设计 决策 ? 
答 : 


(3)“ 真 正 的 创新 通常 会 导致 数据 变 差 ”, 那 为 什么 还 要 创新 设计 ? 
答 : 


(4) 请 简单 描述 你 所 知道 的 上 一 周 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
答 : 


61 大 数据 帮助 改善 设计 


通常 ,设计 师 往 往 认 为 创造 力 与 数据 格格 不 人 ,甚至 会 阻碍 创造 力 的 发 展 。 但 实际 情 
况 是 ,数据 在 确定 设计 改变 是 否 可 以 帮助 更 多 的 人 完成 他 们 的 任务 或 实现 更 高 的 转换 方 
面 ,可 谓 大 有 神 益 。 

数据 可 以 帮助 改善 现 有 的 设计 .但 数据 并 不 能 为 设计 者 提供 一 种 全 新 的 设计 。 它 可 
以 改善 网 站 ,但 它 不 能 从 无 到 有 地 创造 出 一 个 全 新 的 网 站 。 换 名 话说 ,在 提 到 设计 时 , 数 
据 可 能 会 有 助 于 实现 局 部 最 大 化 ,而 不 是 全 局 最 大 化 。 当 设计 无 法 正常 运作 时 ,数据 也 会 
向 你 发 布 通知 。 

不 管 是 游戏 ,汽车 还 是 建筑 物 .这 些 不 同 领域 的 设计 有 一 个 共同 的 特点 ,就 是 其 设计 
过 程 在 不 断 变化 。 从 设计 研发 到 最 终 对 这 种 设计 进行 测试 ,这 一 循环 过 程 会 随 着 大 数据 
的 使 用 而 逐渐 缩短 。 从 现 有 的 设计 中 获取 数据 ,并 搞 清楚 问题 所 在 ,或 弄 慌 如何 大 幅度 改 
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善 的 过 程 也 在 逐渐 加 快 。 低 成 本 的 数据 采集 和 计算 机 资源 ,在 加 快 设计 ` 测 试 和 重新 设计 
这 一 过 程 中 发 挥 了 很 大 的 作用 。 反 过 来 说 ,不 仅 人 们 自己 研发 的 设计 能 够 接收 到 启示 , 设 
计 程 序 本 身 也 会 如 此 。 

6.1.1 少 而 精 是 设计 的 核心 


苹果 (Apple) 公 司 的 产品 设计 一 向 为 世人 所 称道 (图 6-2) ,其 前 任 高 级 工程 经 理 迈克 
尔 。 洛 拍 和 约翰 。 格 鲁 伯 曾 谈 到 为 什么 苹果 公司 总 是 能 够 创造 卓越 的 设计 。 


图 6-2 ”苹果 早期 产品 原型 的 简约 设计 


第 一 ,苹果 认为 良好 的 设计 就 像 一 件 礼 品 。 苹 果 不 仅 专注 于 产品 的 设计 ,还 注重 产品 
的 包装 。*“ 预 期 的 建立 会 使 产品 在 现 身 时 ,为 用 户 带 来 一 种 享受 ”对 于 苹果 公司 来 说 ,每 
个 产品 都 是 一 个 礼品 ,礼品 内 又 包 庄 着 层 层 惊喜 : iPad\iPhone 或 MacBook 的 包装 、 外 观 
和 触觉 ,乃至 产品 内 部 运行 的 软件 都 会 给 和 人 一 种 惊喜 。 

第 二 ,“ 拥 有 完美 像素 的 样机 至 关 重 要 ”。 芋 果 的 设计 师 们 会 对 潜在 的 设计 进行 模拟 ， 
其 至 还 会 对 像素 进行 模拟 。 这 种 方法 打消 了 人 们 对 产品 外 观 的 疑虑 。 不 像 多 数 样 机 中 使 
用 的 拉丁 文本 “Lorem ipsum”( 注 : 印刷 排版 业 中 常用 到 的 一 个 测试 用 的 虚构 词组 ,其 主 
要 目的 是 为 测试 文章 或 文字 在 不 同 字 型 .版 型 下 看 起 来 的 效果 ) , 蔷 果 的 设计 师 们 甚至 还 
在 样机 上 设计 出 了 正式 的 文本 。 

第 三 ,苹果 的 设计 师 们 往往 会 为 一 种 潜在 的 新 功能 研发 出 10 种 设计 方案 。 之 后 , 团 
队 会 从 这 10 种 方案 中 选 出 3 种 ,然后 再 从 中 选 出 最 终 的 设计 。 这 就 是 所 谓 的 10:3:1 
的 设计 方法 。 

第 四 ,苹果 的 设计 团队 每 周 都 会 召开 两 次 不 同类 型 的 会 议 。 在 头脑 风暴 会 议 上 ,所 有 人 
都 能 不 受 局 限 地 发 挥 想象 力 ,他们 不 会 去 考虑 什么 方法 可 行 。 生 产 会 议 则 专注 于 结构 和 进 
度 的 实用 性 。 除 此 之 外 ,苹果 还 采取 了 一 些 其 他 的 措施 ,以 保证 自己 的 设计 卓 尔 不 群 。 

众所周知 ,苹果 公司 不 做 市 场 调查 ,相反 ,公司 员工 只 专注 于 设计 他 们 自己 想 用 的 产 
品 。 主 管 设计 的 高 级 副 总 裁 乔 纳 森 *… 伊 夫 曾 说 过 .苹果 大 多 数 的 核心 产品 都 是 由 一 个 不 
到 20 人 的 小 型 设计 团队 设计 出 来 的 。 蕴 果 公 司 软 硬件 兼备 ,这 就 使 得 公司 能 够 为 用 户 提 
供 集 最 佳 体验 于 一 身 的 产品 。 更 重要 的 是 ,公司 以 少 而 精 作为 设计 的 核心 ,这 就 保证 了 公 
司 能 够 提供 精益 求 精 的 产品 ,公司 “对 完美 有 一 种 近乎 疯狂 的 关注 ”。 

苹果 产品 具有 简单 、 优 雅 、 易 于 使 用 等 特征 。 该 公司 在 产品 设计 上 花费 的 心血 并 不 比 
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产品 的 功能 设置 要 少 。 乔 布 斯 曾 说 过 ,伟大 的 设计 并 不 仅仅 在 于 产品 的 唯美 主义 价值 ,还 
关注 产品 的 功能 。 除 了 要 保证 产品 的 美观 外 ,最 基本 的 还 是 要 使 它们 易于 使 用 。 


6.1.2 与 玩家 共同 设计 游戏 


大 数据 在 高 科技 的 游戏 设计 领域 中 也 发 挥 着 至 关 重 要 的 作用 。 通 过 分 析 ,游戏 设计 
者 可 以 对 新 保留 率 和 商业 化 机 会 进行 评估 ,即使 是 在 现 有 的 游戏 基础 之 上 ,也 能 为 用 户 提 
供 令 人 更 加 满意 的 游戏 体验 。 通 过 对 游戏 费用 等 指标 的 分 析 ,游戏 设计 师 们 能 吸引 游戏 
玩家 ,提高 保留 率 、 每 日 活跃 用 户 和 每 月 活跃 用 户 数 、 每 个 游戏 玩家 支付 的 费用 以 及 游戏 
玩家 每 次 玩 游 戏 花 费 的 时 间 。Kontagent 公司 则 为 收集 这 类 数据 提供 辅助 工具 。 该 公司 
曾 与 成 千 上 万 的 游戏 工作 室 合作 过 ,以 帮助 他 们 测试 和 改进 他 们 发 明 的 游戏 。 游 戏 公司 
通过 定制 的 组 件 来 发 明 游戏 。 他 们 采用 的 是 内 容 管道 方法 (Content Pipeline), 其 中 的 游 
戏 引 擎 可 以 导入 游戏 要 素 , 这 些 要 素 包括 图 形 级别、 目标 和 挑战 ,以 供 游戏 玩家 攻克 。 这 
种 管道 方法 意味 着 ,游戏 公司 会 区 分 不 同 种 类 的 工作 ,比如 对 软件 工程 师 的 工作 和 图 形 艺 
术 家 及 级 别 设计 师 的 工作 进行 区 分 。 通 过 设置 更 多 的 关卡 ,游戏 设计 者 更 容易 对 现 有 的 
游戏 进行 拓展 ,而 无 须 重新 编写 整个 游戏 。 

相反 ,设计 师 和 图 形 艺 术 家 只 需 创 建新 级 别 的 脚本 、 添 加 新 挑战 .创造 新 图 形 和 元 素 。 
这 也 就 意味 着 ,不 仅 游戏 设计 者 可 以 添加 新 级 别 , 游 戏 玩 家 也 可 以 这 么 做 ,或 者 至 少 可 以 
设计 新 图 形 。 

游戏 设计 者 斯 科 特 。 休 梅 克 还 表明 .利用 数据 驱动 来 设计 游戏 ,可 以 减少 游戏 创造 过 
程 中 的 相关 风险 。 不 仅 是 因为 许多 游戏 很 难 通关 成 功 ,而 且 , 就 财务 方面 而 言 ,通关 成 功 
的 游戏 往往 并 不 成 功 。 正 如 休 梅 克 曾 指出 的 ,好 的 游戏 不 仅 关乎 良好 的 图 形 和 级 别 设计 ， 
还 与 游戏 的 趣味 性 和 吸引 力 有 关 。 在 游戏 发 行 之 前 ,游戏 设计 师 很 难 对 这 些 因素 进行 正 
确 的 评估 ,所 以 游戏 设计 的 推行 ,测试 和 调整 至 关 重 要 。 通 过 将 游戏 数据 和 游戏 引擎 进行 
区 分 ,很 容易 对 这 些 游 戏 元 素 进行 调整 ,如 《 吃 豆 人 ) 游 戏 中 小 精灵 吃 豆 的 速度 。 


6.1.3 以 人 为 本 的 汽车 设计 理念 


福特 汽车 (图 6-3) 的 首席 大 数据 分 析 师 约翰 。 金 德 认为 ,汽车 企业 坐 拥 海量 的 数据 
信息 ,“ 消 费 者 、 大 众 及 福特 自身 都 能 受益 菲 浅 。”2006 年 左右 , 随 着 金融 危机 的 爆发 以 及 
新 任 首席 执行 官 的 就 职 , 福 特 公司 开始 更 加 乐于 接受 基于 数据 得 出 的 决策 ,而 不 再 单纯 凭 
直觉 做 出 决策 。 公 司 在 数据 分 析 和 模拟 的 基础 上 提出 了 更 多 新 的 方法 。 

福特 公司 的 不 同 职能 部 门 都 会 配备 数据 分 析 小 组 ,如 信贷 部 门 的 风险 分 析 小 组 ,市场 
营销 分 析 小 组 ,研发 部 门 的 汽车 研究 分 析 小 组 。 数 据 在 公司 发 挥 了 重大 作用 ,因为 数据 和 
数据 分 析 不 仅 可 以 解决 个 别 战术 问题 ,而 且 对 公司 持续 战略 的 制定 来 说 也 是 一 笔 重 要 的 
资产 。 公 司 强 调 数 据 驱 动 文化 的 重要 性 .这 种 自 上 而 下 的 度量 重点 对 公司 的 数据 使 用 和 
周转 产生 了 巨大 的 影响 。 

福特 还 在 硅谷 建立 了 一 个 实验 室 , 以 帮助 公司 发 展 科 技 创 新 。 公 司 获 取 的 数据 主要 
来 自 于 大 约 四 百 万 辆 配备 有 车 载 传 感 设备 的 汽车 。 通 过 对 这 些 数 据 进行 分 析 , 工 程 师 能 
够 了 解 人 们 驾驶 汽车 的 情况 ,汽车 驾驶 环境 及 车 辆 响应 情况 。 所 有 这 些 数 据 都 能 帮助 改 
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图 6-3 ”福特 汽车 中 国 网 站 


善 车 辆 的 操作 人 性、 燃油 的 经 济 性 和 车 辆 的 排 气质 量 。 利 用 这 些 数据 ,公司 对 汽车 的 设计 进 
行 了 改良 ,降低 了 车 内 噪声 (会 影响 车 载 语音 识别 软件 ) ,还 能 确定 扬声器 的 最 佳 位 置 .以 
便 接 收 语音 指示 。 

设计 师 还 能 利用 数据 分 析 做 出 决策 ,如 赛车 改良 决策 和 影响 消费 者 购买 汽车 的 决策 。 
举例 来 说 , 潘 世 奇 车 队 设计 的 赛车 不 断 在 比赛 中 失利 。 为 了 措 清 失利 的 原因 ,工程 师 为 该 
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车 队 的 赛车 配备 了 传感器 ,这 种 传感器 能 收集 到 二 十 多 种 不 同 变量 的 数据 ,如 轮胎 温度 和 
转向 等 。 虽然 工程 师 已 对 这 些 数 据 进 行 了 两 年 的 分 析 , 他 们 仍然 无 法 弄 清 楚 赛 车 手 在 比 
赛 中 失利 的 原因 。 

而 数据 分 析 型 公司 Event Horizon 也 收集 了 同样 的 数据 ,但 其 对 数据 的 处 理 方式 完 
全 不 同 。 该 公司 没有 从 原始 数字 入 手 , 而 是 通过 可 视 化 模拟 来 重视 赛车 改装 后 在 比赛 中 
的 情况 。 通 过 可 视 化 模拟 ,他 们 很 快 就 了 解 到 ,赛车 手 转 动 方向 盘 和 赛车 启动 之 间 存 在 一 
段 沾 后 时 间 。 赛 车 手 在 这 段 时 间 内 会 做 出 很 多 微小 的 调整 ,所 有 这 些微 小 的 调整 加 起 来 
就 占据 了 不 少时 间 。 

由 此 可 以 看 出 , 仅 拥有 真实 的 数据 是 远 远 不 够 的 。 就 大 数据 的 设计 和 其 他 方面 而 言 ， 
能 够 以 正确 的 方式 观察 数据 才 是 至 关 重 要 的 。 


6.1.4 寻找 最 佳音 响 效 果 


大 数据 还 能 帮助 我 们 设计 更 好 的 音乐 厅 。 在 20 世纪 末 , 哈 佛 大 学 的 讲师 W. C. 萨 
宾 开 创 了 建筑 声学 这 一 新 领域 。 

研究 之 初 , 萨 宾 将 福 格 演讲 厅 ( 听 众 认为 其 声学 效果 不 明显 ) 和 附近 的 桑 德 斯 剧院 ( 声 
学 效果 显著 ) 进 行 了 对 比 。 在 助手 的 协助 下 , 萨 宾 将 坐垫 之 类 的 物品 从 桑 德 斯 剧院 移 到 了 
福 格 演讲 厅 , 以 判断 这 类 物品 对 音乐 厅 的 声学 效果 会 产生 怎样 的 影响 。 萨 宾 和 他 的 助手 
在 夜间 开始 工作 ,经 过 仔细 测量 后 ,他 们 会 在 早晨 到 来 之 前 将 所 有 物品 放 回 原 位 ,从 而 不 
影响 两 个 音乐 厅 的 日 间 运 作 。 

经 过 大 量 的 研究 , 萨 宾 对 混 响 时 间 ( 或 称 “ 回 声效 应 ”) 做 出 了 这 样 一 个 定义 : 它 是 声 
音 从 其 原始 水 平 下 降 60dB 所 需 的 秒 数 。 萨 宾 发 现 ,声学 效果 最 好 的 音乐 厅 的 混 响 时 间 
为 2 一 2. 25s。 混 响 时 间 太 长 的 音乐 厅 会 被 认 
为 过 于 * 活 跃 ”, 而 混 响 时 间 太 短 的 音乐 厅 会 被 
认为 过 于 “平淡 "。 混 响 时 间 的 长 短 主要 取决 
于 两 个 因素 : 房间 的 容积 和 总 吸收 面积 ,或 现 
有 吸收 面积 。 在 福 格 演讲 厅 中 ,所 听 到 的 说 话 
声 大 约 能 延长 5. 5s, 萨 宾 减 少 了 其 回音 效果 并 
改善 了 它 的 声学 效果 。 后 来 , 萨 宾 还 参与 了 波 
士 顿 音乐 厅 ( 图 6-4) 的 设计 。 

继 萨 宾 之 后 ,该 领域 开始 呈现 出 莲 勃 的 发 图 6-4 波士顿 音乐 厅 
展 趋势 。 如 今 ,借助 模型 ,数据 分 析 师 不 仅 对 现 
有 音乐 厅 的 声学 问题 进行 评估 ,还 能 模拟 新 音乐 厅 的 设计 。 同 时 ,还 能 对 具有 可 重新 配置 几 
何 形状 及 材料 的 音乐 厅 进 行 调整 ,以 满足 音乐 或 演讲 等 不 同 的 用 途 , 这 就 是 其 创新 所 在 。 

具有 讽刺 意味 的 是 ,许多 建 于 19 世纪 后 期 的 古典 音乐 厅 的 音响 效果 可 谓 完美 ,而 那 
些 近 期 建造 的 音乐 厅 则 达 不 到 这 种 效果 。 这 主要 是 因为 如 今 的 音乐 厅 渴 望 容纳 更 多 的 席 
位 ,同时 还 引进 了 许多 新 型 建材 以 使 建筑 师 设计 出 几乎 任何 形状 和 大 小 的 音乐 厅 , 而 不 再 
受 限于 木材 的 强度 和 硬度 。 现 在 建筑 师 正 试图 设计 新 的 音乐 厅 , 以 期 能 与 波士顿 和 维 也 
纳 音乐 殿堂 的 音响 效果 匹敌 。 音 质 、 音 乐 厅 容 量 和 音乐 厅 的 形状 可 能 会 出 现 冲 突 。 而 通 
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过 利用 大 数据 ,建筑 师 可 能 会 设计 出 跟 以 前 类 似 的 音响 效果 ,同时 还 能 使 用 现代 化 的 建筑 
材料 来 满足 当今 的 座席 要 求 。 


6.1.5 建筑 ,数据 取代 直觉 


建筑 师 还 在 不 断 将 数据 驱动 型 设计 推广 至 更 广泛 的 领域 。 正 如 LMN 建筑 事务 所 的 
萨 姆 。 米 勒 指出 的 , 老 建 筑 的 设计 周期 是 : 设计 、 记 录 、 构 建 和 重复 。 只 有 经 过 多 年 的 实 
践 , 才 能 完全 领会 这 一 过 程 , 一 个 拥有 二 十 多 年 设计 经 验 的 建筑 师 或 许 只 见证 过 十 几 个 这 
样 的 设计 周期 。 随 着 数据 驱动 型 架构 的 实现 ,建筑 师 已 经 可 以 用 一 种 迭代 循环 过 程 来 取 
代 上 述 过 程 了 ,该 迭代 循环 过 程 即 模型 模拟、 分 析 、 综 合 、 优 化 和 重复 。 就 像 发 动机 设计 
人 员 可 以 使 用 模型 来 模拟 发 动机 的 性 能 一 样 ,建筑 师 如 今 也 可 以 使 用 模型 来 模拟 建筑 物 
的 结构 。 

据 米 勒 讲 , 他 的 设计 组 如 今 只 需 短 短 几 天 的 时 间 就 可 以 模拟 成 百 上 千 种 设计 ,他 们 还 
可 以 找 出 哪些 因素 会 对 设计 产生 最 大 的 影响 。 米 勒 说 :“ 直 觉 在 数据 驱动 型 设计 程序 中 
发 挥 的 作用 在 逐渐 减少 ,” 而 且 ,建筑 物 的 性 能 要 更 加 良好 。 

建筑 师 并 不 能 保证 研究 和 设计 会 花费 多 少时 间 , 但 米 勒 说 ,数据 驱动 型 方法 使 这 种 投 
资 变 得 更 加 有 意义 ,因为 它 保证 了 公司 的 竞争 优势 。 通 过 将 数据 应 用 于 节能 和 节 水 的 实 
践 中 ,大 数据 也 有 助 于 绿色 建筑 的 设计 。 通 过 评估 基准 数据 ,建筑 师 如 今 可 以 判断 出 某 个 
特定 的 建筑 物 与 其 他 绿色 建筑 的 区 别 所 在 。 美 国 环保 署 (EPA) 的 在 线 工 具 * 投 资 组 合 经 
理 ? 就 应 用 了 这 一 方法 。 它 的 主要 功能 是 互动 能 源 管理 , 它 可 以 让 业主 、 管 理 者 和 投资 者 
对 所 有 建筑 物耗 费 的 能 源 和 用 水 进行 跟踪 和 评估 。 

Safaira 公司 还 设计 了 一 种 基于 Web 的 软件 ,软件 利用 专业 物理 知识 ,能 够 提供 设计 
分 析 、 知 识 管理 和 决策 支持 。 有 了 这 种 软件 ,用户 就 可 以 对 不 同 战略 设计 中 的 能 源 .水 、 碳 
和 经 济 利益 进行 测量 和 优化 。 


62 大 数据 操作 回路 


几 十 年 来 ,理解 数据 是 数据 分 析 师 .统计 学 家 们 的 事情 。 业 务 经 理 要 想 提 取 数据 ,不 

仅 要 等 IT 部 门 收集 到 主要 数据 ,还 要 等 分 析 师 们 将 数据 汇聚 并 分 析 理 解 之 后 才能 处 理 。 

大 数据 应 用 程序 的 前 景 不 仅 是 收集 数据 的 能 力 ,还 有 利用 数据 的 能 力 ,而 且 对 数据 的 利用 

不 需要 采用 只 有 统计 学 家 们 才 会 使 用 的 一 系列 工具 。 通 过 让 数据 变 得 更 易 获取 ,大 数据 

应 用 程序 将 使 组 织 机 构 一 个 产品 线 、 一 个 产品 线 地 变 得 信号 -噪声 

更 依赖 于 数据 驱动 。 不 过 ,即使 有 了 数据 和 利用 数据 所 

需 的 相关 工具 ,要 做 到 数据 化 还 是 有 相应 的 难度 的 。 1 \ 
数据 驱动 要 求 我 们 不 仅 要 掌握 数据 , 挑 出 数据 ,还 必 实施 的 | 。 据 污 晤 。 | 对 数据 

须根 据 所 基于 的 相关 数据 来 制定 决策 。 这 样 的 话 ,我 们 ”信念 有 

既 要 有 信心 , 即 相信 数据 ;也 要 有 足够 的 信念 ,即使 大 众 

的 意见 与 之 相左 ,也 要 基于 数据 来 进行 决策 。 我 们 将 其 二 

称 为 大 数据 操作 回路 (图 6-5) 。 图 6-5 大 数据 操作 回路 
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从 历史 的 角度 看 ,获取 和 处 理 数 据 都 很 麻烦 ,因为 通常 数据 并 不 集中 在 一 个 地 方 。 公 
司 内 部 数据 分 布 在 一 系列 不 同 的 数据 库 ,数据 存储 器 和 文件 服务 器 之 中 ,而 外 部 数据 则 分 
布 在 市 场 报告 .网 络 以 及 其 他 难以 获取 数据 的 地 方 。 

大 数据 的 挑战 和 优势 就 在 于 , 它 通 常会 将 所 有 数据 集中 到 一 个 地 方 ,这 就 意味 着 有 可 
能 通过 处 理 更 多 相关 数据 ,得 到 更 丰富 的 内 涵 一 一 工程 师 们 将 这 些 数据 称 为 信号 ,当然 ， 
这 也 意味 着 有 更 多 的 噪声 一 一 与 结论 不 相关 的 数据 和 甚至 会 导致 错误 结论 的 数据 。 

如 果 计 算 机 或 人 不 能 理解 数据 .那么 仅仅 将 数据 集中 到 一 起 也 起 不 了 什么 作用 。 大 
数据 应 用 程序 有 助 于 从 噪声 中 提取 信号 ,以 加 强 我 们 对 数据 的 信心 ,提升 基于 数据 进行 决 


6.2.2 大 数据 反馈 回路 


在 你 第 一 次 摸 到 滚 溪 的 火炉 的 时 候 , 第 一 次 把 手 促进 电源 盒 的 时 候 , 或 者 第 一 次 超速 

行驶 的 时 候 , 你 会 经 历 一 次 反馈 回路 。 不 管 你 是 否 意识 到 ,你 都 会 进行 测算 并 分 析 其 结 

果 , 这 个 结果 会 影响 你 未 来 的 行为 。 我 们 把 这 称 之 为 "大 数据 反馈 回路 ”, 而 这 也 是 成 功 的 

文本 大 数据 应 用 程序 的 核心 所 在 (图 6-6) 。 

通过 测算 ,你 会 发 现 摸 深 溪 的 火炉 或 者 被 电击 会 让 你 

人 \ 感到 疼痛 ,超速 行驶 会 给 你 招来 品 贵 的 罚单 或 者 车 祝 。 不 

反应 大 数据 分 析 ”过 ,你 要 是 侥幸 逃 过 了 这 些 , 你 可 能 会 觉得 超速 行驶 很 夹 。 

不 管 结果 如 何 ,所 有 的 行为 都 会 给 你 反馈 。 你 会 把 这 

些 反馈 融入 到 你 的 个 人 数据 图 书馆 中 ,然后 根据 这 些 数 

2 据 ,改变 你 未 来 的 行为 方式 。 你 要 是 有 过 那么 一 次 很 夹 的 

图 6-6 大 数据 反馈 回路 。 ”超速 行驶 的 经 历 , 在 未 来 .你 可 能 会 更 多 地 选择 超速 行驶 。 

如 果 你 有 过 被 火炉 泥 到 的 不 爽 的 经 历 ,你 可 能 以 后 在 摸 火 

炉 之 前 会 先 确认 它 是 否 溪 手 。 当 涉及 大 数据 的 时 候 , 这 种 反馈 回路 至 关 重 要 。 单 纯 动手 

收集 和 分 析 数 据 并 不 够 ,还 必须 有 从 数据 中 得 出 一 系列 结论 的 能 力 以 及 对 这 些 结论 的 反 

馈 , 以 确认 这 些 结论 的 正 误 。 模 型 融入 的 数据 越 相关 , 越 能 得 到 更 多 关于 假设 的 反馈 , 因 
而 你 的 见解 也 就 越 有 价值 。 

过 去 运行 这 种 反馈 回路 速度 慢 、 时 间 长 。 比 方 说 ,收集 销售 数据 ,然后 试图 总 结 出 
能 促进 消费 者 购买 的 定价 机 制 或 产品 特征 。 我 们 调整 价格 、 改 变 产 品 特征 并 再 次 进行 
试验 。 问 题 就 在 于 , 当 我 们 总 结 出 分 析 结 果 , 并 调整 了 价格 和 产品 的 时 候 , 情 况 又 发 生 
了 变化 。 

大 数据 的 好 处 在 于 ,如 今 能 够 以 更 快 的 速度 运行 这 种 反馈 回路 。 比 方 说 ,广告 界 的 大 
数据 应 用 程序 需要 通过 提供 多 种 多 样 的 广告 才能 够 得 知 哪个 广告 最 奏效 ,这 甚至 能 在 细 
分 基础 上 得 以 实现 一 一 他 们 能 判断 出 哪个 广告 对 哪 种 人 群 最 奏效 。 人 们 没 法 做 这 种 A 
或 B 的 测算 一 一 展示 不 同 的 广告 来 知道 哪个 更 好 ,或 哪个 见效 更 快 。 但 是 计算 机 能 大 量 
地 进行 这 种 测算 ,不 仅 在 不 同 的 广告 中 间 进 行 选择 ,实际 上 还 能 自行 修订 广告 一 不同 的 
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字体 .颜色 .尺寸 或 图 片 ,以 确定 哪些 最 有 效 。 这 种 实时 反馈 回路 是 大 数据 最 具 力 量 的 一 
面 , 即 大 量 收 集 数据 并 迅速 就 许多 不 同方 法 进行 测算 和 行动 的 能 力 。 


6.2.3 最 小 数据 规模 


随 着 我 们 不 断 推进 大 数据 ,收集 和 存储 数据 不 再 是 什么 大 问题 了 ,相反 ,如 何 处 理 数 
据 变 成 了 一 个 棘手 的 问题 。 一 个 高 效 的 反馈 回路 需要 一 个 足够 大 型 的 测试 装置 一 一 配 有 
网 站 访问 量 、 销 售 人 员 的 号 召 力 、 广 告 的 浏览 量 等 。 我 们 将 这 种 测试 装置 称 为 “最 小 数据 
规模 ”, 它 是 指 要 运行 大 数据 反馈 回路 并 从 中 得 出 有 意义 的 洞悉 所 需要 的 最 小 数据 量 
(图 6-7)。 
规模 上 升 规模 化 数据 规模 


数据 


最 小 数据 规模 


时 间 
图 6-7 最 小 数据 量 


最 小 数据 规模 意味 着 公司 有 足够 的 网 站 访问 量 .足够 的 广告 浏览 量 ,或 者 足够 的 销售 
前 景 信息 ,使 得 决策 者 能 基于 这 些 测试 得 出 有 效 的 结论 并 制定 决策 。 当 公司 达到 最 小 数 
据 规模 的 要 求 时 , 它 就 可 以 利用 大 数据 应 用 程序 告知 销售 人 员 下 一 步 应 该 打 电话 给 谁 ,或 
确定 哪个 广告 有 助 于 实现 最 高 的 折 现 率 .或 者 给 读者 推荐 正确 的 电影 或 书籍 。 当 公司 的 
数据 集 如 此 巨大 ,已 经 变 成 一 项 竞争 优势 的 时 候 , 就 成 为 像 亚 马 逊 、 和 谷歌 Facebook 这 样 
的 公司 。 


6.2.4 大 数据 应 用 程序 的 优势 与 作用 


大 数据 应 用 程序 的 优势 就 在 于 它 负 责 运行 大 数据 的 部 分 或 全 部 反馈 回路 。 一 些 大 数 
据 应 用 程序 ,比如 说 强大 的 分 析 和 可 视 化 应 用 ,能 把 数据 放 在 一 个 地 方 并 让 其 可 视 , 然 后 ， 
人 们 能 决定 下 一 步 该 做 什么 。 还 有 一 些 大 数据 应 用 程序 可 以 自动 测试 新 方法 并 决定 下 一 
步 做 什么 ,比如 自动 投放 广告 和 网 站 优化 。 

现今 的 大 数据 应 用 程序 在 实现 全 球 数据 规模 最 大 化 的 过 程 中 所 起 的 作用 并 不 大 。 但 
它们 可 以 最 大 限度 地 优化 当地 的 数据 规模 ,使 之 最 大 化 。 它 们 能 投放 合适 的 广告 .优化 网 
页 .告知 销售 人 员 电 话 营 销 的 对 象 ,还 能 在 销售 人 员 打 电话 的 过 程 中 指点 他 ,告诉 他 应 该 
说 些 什 么 。 


大 数 揭 号 论 


63 大 数据 资产 的 崛起 


公司 收集 的 大 量 数据 称 为 “大 数据 资产 ,将 数据 转化 为 优势 的 公司 将 有 能 力 降低 成 
本 、 提 升 价格 .区 分 优 劣 ,吸引 更 多 顾客 并 最 终 留 住 更 多 顾客 。 这 主要 包含 以 下 两 层 意思 。 

第 一 ,对 初创 公司 来 说 ,现在 有 大 量 的 机 会 能 够 使 公司 通过 创建 应 用 来 实现 这 种 竞争 
优势 ,上 且 这 种 方法 一 经 创建 能 立即 被 使 用 。 公 司 无 须 自行 创建 这 些 可 能 性 ,它们 能 通过 应 
用 程序 获取 可 能 性 。 

第 二 ,将 数据 和 依靠 数据 办 事 的 能 力作 为 核心 资产 的 公司 (不 管 是 初创 公司 还 是 大 型 
公司 ), 相 比 并 非 如 此 的 公司 而 言 , 有 极 大 的 竞争 优势 。 


6.3.1 大 数据 催生 狐 新 的 应 用 程序 


提 及 大 数据 ,我 们 已 经 见证 了 一 系列 新 应 用 程序 的 诞生 ,而 这 些 只 是 冰山 一 角 。 现 
在 ,很 多 应 用 程序 都 聚集 在 业务 问题 上 ,但 是 将 来 会 出 现 更 多 的 打破 整个 大 环境 和 产业 现 
状 的 应 用 程序 。 以 加 利 福 尼 亚 州 圣 克 和 鲁 斯 市 的 警 局 为 例 , 他 们 通过 分 析 历 史 犯 罪 记录 , 预 
测 犯 罪 即将 发 生 的 地 点 。 然 后 ,他 们 派 警 员 到 有 可 能 发 生 犯 罪 的 地 方 。 事 实证 明 , 这 有 利 
于 降低 犯罪 率 。 也 就 是 说 ,只 要 在 一 天 中 适当 的 时 间或 者 一 周 中 适当 的 一 天 (这 取决 于 历 
史 数 据 分 析 ) ,将 警 员 安插 在 适当 的 地 方 , 就 能 减少 犯罪 。 一 家 名 为 Predpol 的 公司 为 圣 
克 鲁 斯 市 警察 局 提供 协助 一 一 该 公司 通过 分 析 处 理 犯 罪 活动 这 种 类 型 的 大 数据 ,以 使 其 
能 在 这 种 特定 用 途上 发 挥 效用 。 

大 数据 催生 着 一 系列 新 应 用 程序 ,这 也 意味 着 大 数据 不 只 为 大 公司 所 用 ,大 数据 将 影 
响 各 种 规模 的 公司 ,同时 还 会 影响 到 人 们 的 个 人 生活 一 一 从 如 何 生 活 、 如 何 相 爱 到 如 何 学 
习 。 大 数据 再 也 不 是 有 着 大 量 数据 分 析 师 和 数据 工程 师 的 大 企业 的 专利 。 

分 析 大 数据 的 基础 架构 已 经 具备 (至 少 对 企业 来 说 ) ,这些 基础 架构 中 的 大 部 分 都 能 
在 “ 云 " 中 找到 。 起 先 实施 起 来 是 很 容易 的 。 有 大 量 的 公共 数据 可 以 利用 ,如 此 一 来 ,企业 
家 们 将 会 创建 大 量 的 大 数据 应 用 程序 。 企 业 家 和 投资 者 所 面临 的 挑战 就 是 找到 有 意义 的 
数据 组 合 ,包括 公开 的 和 私人 的 数据 ,然后 将 其 在 具体 的 应 用 中 结合 起 来 一 一 这 些 应 用 将 
在 未 来 几 年 内 为 很 多 人 带 来 真正 的 好 处 。 


6.3.2 寻找 大 数据 “空白”, 提 取 最 大 价值 


大 数据 为 创业 和 投资 开辟 了 一 些 新 的 领域 。 你 不 需要 是 统计 学 家 工程 师 或 者 数据 
分 析 师 就 可 以 轻松 获取 数据 ,然后 凭借 分 析 和 洞察 力 开发 可 行 的 产品 。 这 是 一 个 充满 机 
遇 的 主要 领域 。 就 像 Facebook 让 照片 分 享 变 得 更 容易 一 样 ,新 产品 不 仅 能 使 分 析 变 得 更 
简单 ,还 能 将 分 析 结 果 与 人 分 享 ,并 从 这 种 协作 中 学 到 一 些 东西 。 

将 众多 内 部 数据 聚合 到 一 个 地 方 , 或 者 将 公共 数据 和 个 人 数据 源 相 结合 ,也 能 开辟 出 
产品 开发 和 投资 的 新 机 遇 。 新 数据 组 合 能 带 来 更 优 的 信用 评级 .更 好 的 城市 规划 ,公司 将 
有 了 能力 比 竞争 对 手 更 快速 .敏捷 地 发 现 市 场 变化 并 做 出 反应 。 大 数据 也 将 会 有 新 的 信息 
和 数据 服务 业务 。 昌 然 如 今 网 上 有 大 量 数据 一 一 从 学 校 的 成 绩 指标 、 天 气 信息 到 美国 人 
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口 普查 ,数据 应 有 尽 有 ,但 是 很 多 这 些 数据 的 原始 数据 依然 很 难 获 取 。 

收集 数据 、 将 数据 标准 化 ,并 且 要 以 一 种 能 轻易 获取 数据 的 方式 呈现 数据 可 不 容易 。 
信息 服务 的 范围 已 经 到 了 不 得 不 细 分 的 时 刻 , 因 为 处 理 这 些 数 据 太 难 了 。 新 数据 服务 也 
会 因为 我 们 生成 的 新 数据 而 涌现 。 因 为 智能 手机 配备 有 GPS 动力 感应 和 内 团 联 网 功 
能 ,它们 就 成 为 生成 低 成 本 具体 位 置 数据 的 完美 选择 。 研 发 者 也 已 经 开始 创建 应 用 程序 
来 检测 路 面 异常 情况 ,比方 说 基于 震动 来 检测 路 面 坑 洞 。 这 需要 大 数据 应 用 程序 中 的 最 
基本 的 应 用 程序 一 一 如 智能 手机 采用 的 这 一 类 低 成 本 传感器 来 收集 新 数据 。 

要 从 这 样 的 空白 机 遇 里 提炼 出 最 大 的 价值 ,不 仅 需 要 金融 市 场 理解 大 数据 业务 ,还 需 
要 其 订阅 大 数据 业务 。 在 大 数据 、 云 计算 .移动 应 用 以 及 社会 因素 等 因素 的 影响 下 ,不 难 
想象 ,信息 技术 在 未 来 20 年 的 发 展 一 定 比 过 去 的 20 年 更 精彩 。 


【延伸 阅读 】 


数据 驱动 天 大 数据 


数据 驱动 这 样 一 种 商业 模式 是 在 大 数据 的 基础 上 产生 的 , 它 需 要 利用 大 数据 的 技术 
手段 ,对 企业 海量 的 数据 进行 分 析 处 理 , 挖 据 出 这 些 海 量 数 据 的 草 含 的 价值 ,从 而 指导 企 
业 进行 生产 、 销 售 、 经 营 、 管 理 。 


1. 数据 驱动 与 大 数据 有 区 别 


数据 驱动 与 大 数据 无 论 是 从 产生 背景 还 是 从 内 涵 来 说 ,都 具有 很 大 的 不 同 。 

1) 产生 背景 不 同 

21 世纪 第 二 个 十 年 ,伴随 着 移动 互联 网 、 云 计算 、 大 数据 、 物 联网 和 社交 化 技术 的 发 
展 ,一 切 蕴 可 数据 化 ,全 球 正 逐步 进入 数据 社会 阶段 ,企业 也 存储 了 海量 的 数据 。 在 这 样 
的 进程 中 ,曾经 能 获得 竞争 优势 的 定位 、 效 率 和 产业 结构 均 不 能 保证 企业 在 残酷 的 商业 竞 
争 中 保证 自身 竞争 优势 ,诺基亚 、 索 尼 等 就 是 很 好 地 例子 。 在 这 样 的 背景 之 下 ,数据 驱动 
产生 了 ,未 来 谁 能 更 好 地 由 数据 驱动 企业 生产 、 经 营 、 管 理 , 谁 才 有 可 能 在 残酷 的 竞争 中 立 
于 不 败 之 地 。 

大 数据 早 于 数据 驱动 产生 ,但 是 都 出 于 相同 的 时 代 , 都 是 在 互联 网 、 移 动 互联 网 、 云 计 
算 、 物 联网 之 后 。 随 着 这 些 技术 的 应 用 ,积累 了 海量 的 数据 ,单个 数据 没有 任何 价值 ,但 是 
海量 的 数据 则 冀 含 着 不 可 估量 的 价值 ,通过 挖掘 、 分 析 , 可 从 中 提取 出 相应 的 价值 ,而 大 数 
据 就 是 为 解决 这 一 类 问题 而 产生 的 。 

由 以 上 分 析 可 知 , 数 据 驱动 与 大 数据 产生 的 背景 及 目的 是 有 差别 的 ,不 可 以 认为 数据 
驱动 就 是 大 数据 。 

2) 内 涵 不 同 

数据 驱动 是 一 种 新 的 运营 模式 。 

在 传统 的 商业 模式 之 下 ,企业 通过 差异 化 的 战略 定位 、 高 效率 的 经 营 管理 以 及 低 成 本 
优势 ,可 以 保证 企业 在 商业 竞争 中 占据 有 利 位 置 , 这 些 可 以 通过 对 流程 的 不 断 优化 实现 ， 
而 在 移动 互联 网 时 代 以 及 正在 进入 的 数据 社会 时 代 , 这 些 优势 都 将 不 能 保证 企业 的 竞争 


和 


优势 ,只 有 企业 的 数据 才能 保证 企业 的 竞争 优势 ,也 就 是 说 ,企业 只 有 由 数据 驱动 才能 保 
证 其 竞争 优势 。 

在 这 样 的 环境 之 下 ,传统 的 经 营 管理 模式 都 将 改变 以 数据 为 中 心 ,由 数据 驱动 。 数 据 驱 
动 的 企业 ,这 实际 上 是 技术 对 商业 界 , 对 企业 界 的 一 个 改变 。 正 如 王 文 闽 总 裁 所 说 ,消费 电 
子 产 品 经 历 了 一 个 从 模拟 走向 数字 化 的 革命 历程 。 与 此 类 似 ,企业 的 经 营 管理 也 将 从 现 有 
模式 转向 数据 驱动 的 企业 。 这 样 一 个 转变 ,实际 上 也 是 全 球 企业 面临 的 一 场 新 变革 。 


2. 大 数据 是 数据 及 相关 技术 工具 的 统称 


大 数据 目前 尚 无 统一 定义 ,Gartner 认为 大 数据 是 需要 新 处 理 模式 才能 具有 更 强 的 
决策 力 、 洞 察 发 现 力 和 流程 优化 能 力 的 海量 、 高 增长 率 和 多 样 化 的 信息 资产 。 维 基 百 科 认 
为 ,大 数据 是 指 无 法 在 可 承受 的 时 间 范 围 内 用 常规 软件 工具 进行 捕 提 、 管 理 、 处 理 的 数据 
集合 。 从 产业 角度 ,常常 把 这 些 数据 与 采集 它们 的 工具 .平台 、 分 析 系 统一 起 被 称 为 “大 数 
据 "。 大 数据 具有 Volume、Variety、Value 和 Velocity 的 4V 特征 。 

数据 驱动 是 一 种 全 新 的 商业 模式 ,而 大 数据 是 海量 的 数据 以 及 对 这 些 数据 进行 处 理 
的 工具 的 统称 。 二 者 具有 本 质 上 的 差别 ,不 能 一 概 而 论 。 


3. 数据 驱动 与 大 数据 有 联系 


虽然 数据 驱动 与 大 数据 有 着 众多 的 不 同 , 但 是 由 上 面 的 阐述 可 以 知道 ,数据 驱动 与 大 
数据 不 是 完全 的 两 码 事 ,二 者 还 是 有 着 一 定 的 联系 的 。 大 数据 是 数据 驱动 的 基础 ,而 数据 
驱动 是 大 数据 的 应 用 体现 。 

如 前 所 述 ,数据 驱动 这 样 一 种 商业 模式 是 在 大 数据 的 基础 上 产生 的 , 它 需 要 利用 大 数 
据 的 技术 手段 ,对 企业 海量 的 数据 进行 分 析 处 理 , 挖 握 出 这 些 海量 数据 冀 含 的 价值 ,从 而 
指导 企业 进行 生产 、 销 售 、 经 营 、 管 理 。 

同样 地 ,再 先进 的 技术 ,如 果 不 用 于 生产 时 间 , 则 其 对 于 社会 是 没有 太 大 的 价值 的 ,大 
数据 技术 应 用 于 数据 驱动 的 企业 这 样 一 种 商业 模式 之 下 ,正好 体现 其 应 用 价值 。 

资料 来 源 : 佚名 ,畅想 网 ,2013/12/20 


【实验 与 思考 】 
大 数据 如 何 激发 创造 力 
1. 实验 目的 


(1) 熟悉 大 数据 改善 设计 的 主要 途径 和 方法 ; 
(2) 了 解 大 数据 催生 诺 新 应 用 程序 所 带 来 的 市 场 与 商机 ; 
(3) 熟悉 大 数据 操作 回路 和 反馈 回路 的 概念 ,掌握 数据 驱动 的 设计 方法 。 


2. 工具 /准备 工作 
在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 。 


党 多 天 娄 提 到 册 全 的 吃 


3. 实验 内 容 与 步骤 


(1) 在 大 数据 时 代 ,数据 是 如 何 激 发 设计 创造 力 的 ? 
答 : 


(2)“ 大 数据 为 创业 和 投资 开辟 了 一 些 新 的 领域 ”, 请 思考 与 分 析 , 你 能 例 举 出 这 样 的 
成 功 案例 吗 ? 
答 : 


(3) 什么 是 “数据 反馈 回路 ”, 大 数据 时 代 的 数据 反馈 回路 有 什么 特点 ? 
答 : 


(4) 请 通过 网 络 搜索 与 文献 阅读 ,思考 与 分 析 "* 什 么 是 数据 驱动 ”? 请 举例 说 明 。 
答 : 


4. 实验 总 结 


5. 实验 评价 (教师 ) 


大 数据 预测 分 析 


【导读 案例 】 
葡萄 酒 的 品质 


奥 利 。 阿 什 菲 尔 特 是 普林斯顿 大 学 的 一 位 经 济 学 家 ,他 的 日 常 工作 就 是 琢磨 数据 , 利 
用 统计 学 ,他 从 大 量 的 数据 资料 中 提取 出 隐藏 在 数据 背后 的 信息 。 

奥 利 非常 喜欢 喝 葡 葡 酒 (图 7-1) ,他 说 :“ 当 上 好 的 红 葡 萄 酒 有 了 一 定 的 年 份 时 ,就 会 
发 生 一 些 非常 神奇 的 事情 。? 当 然 , 奥 利 指 的 不 仅 是 葡萄 酒 的 口感 ,还 有 隐藏 在 好 葡萄 酒 和 
一 般 葡萄 酒 背 后 的 力量 。 

“每 次 你 买 到 上 好 的 红 葡 葡 酒 时 ,” 他 说 ， 
“其 实 就 是 在 进行 投资 ,因为 这 瓶 酒 以 后 很 有 
可 能 会 变 得 更 好 。 而 且 你 想 知 道 的 不 是 它 现 
在 值 多 少 钱 ,而 是 将 来 值 多 少 钱 。 即 使 你 并 不 
打算 卖 掉 它 , 而 是 喝 掉 它 。 如 果 你 想 知道 把 从 
当前 消费 中 得 到 的 愉悦 推迟 ,将 来 能 从 中 得 到 
多 少 愉 悦 , 那 么 这 将 是 一 个 永远 也 讨论 不 完 

图 7-1 波尔多 葡萄 酒 的 、 吸 引 人 的 话题 。" 而 这 个 话题 奥 利 已 研究 了 
25 年 。 

奥 利 身材 高 大 ,头发 花白 而 浓密 ,声音 友善 ,总 是 能 成 为 人 群 中 的 主角 。 他 曾 花 费心 
思 研 究 的 一 个 问题 是 ,如 何 通过 数字 评估 波尔多 葡萄 酒 的 品质 。 与 品 酒 专家 通常 所 使 用 
的 “ 品 哑 并 吐 掉 ”的 方法 不 同 , 奥 利用 数字 指标 来 判断 能 拍 出 高 价 的 酒 所 应 该 具有 的 品质 
特征 。 

“其 实 很 简单 ,” 他 说 ,“ 酒 是 一 种 农产品 ,每 年 都 会 受到 气候 条 件 的 强烈 影响 ”因此 奥 
利 采 集 了 法 国 波尔多 地 区 的 气候 数据 加 以 研究 ,他 发 现 如 果 收 割 季节 干旱 少雨 且 整个 夏 
季 的 平均 气温 较 高 ,该 年 份 就 容易 生产 出 品质 上 乘 的 葡萄 酒 。 正 如 彼得 。 帕 塞 尔 在 (纽约 
时 报 》 中 报告 的 那样 , 奥 利 给 出 的 统计 方程 与 数据 高 度 吻 合 。 

当 葡 萄 熟 透 .汁液 高 度 浓 缩 时 ,波尔多 葡萄 酒 是 最 好 的 。 夏 季 特 别 炎 热 的 年 份 , 葡 葡 
很 容易 熟 透 ,酸度 就 会 降低 。 类 热 少雨 的 年 份 , 攻 获 汁 也 会 高 度 浓缩 。 因 此 ,天 气 越 炎热 
干燥 , 越 容 易 生 产 出 品质 一 流 的 葡萄 酒 。 热 透 的 葡萄 能 生产 出 口感 柔润 ( 即 低 敏 度 ) 的 葡 
萄 酒 , 而 汁液 高 度 浓 缩 的 葡萄 能 够 生产 出 醇厚 的 葡萄 酒 。 


第 呆 7 这 大 数 握 碳 列 分 析 


奥 利 把 这 个 葡萄 酒 的 理论 简化 为 下 面 的 方程 式 : 
葡萄 酒 的 品质 一 12. 145 十 0. 001 17 尖 冬天 降雨 量 十 0.0614X 久 葡萄 生长 期 平均 气温 
一 0.003 86 尖 收获 季节 降雨 量 

这 个 式 子 是 对 的 。 把 任何 年 份 的 气候 数据 代入 上 面 这 个 式 子 , 奥 利 就 能 够 预测 出 任 
意 一 种 葡萄 酒 的 平均 品质 。 如 果 把 这 个 式 子 变 得 再 稍微 复杂 精巧 一 些 , 他 还 能 更 精确 地 
预测 出 一 百 多 个 酒 庄 的 葡萄 酒 品质 。 他 承认 * 这 看 起 来 有 点 儿 太 数字 化 了 ”, 但 这 恰恰 是 
法 国人 把 他 们 葡萄 酒 庄园 排 成 著名 的 1855 个 等 级 时 所 使 用 的 方法 ”。 

然而 ,当时 传统 的 评 酒 专家 并 未 接受 奥 利 利 用 数据 预测 葡 葡 酒 品质 的 做 法 。 英 国 的 
《葡萄 酒 》 杂 上 志 认 为 “这 条 公式 显然 是 很 可 笑 的 ,我 们 无 法 重视 它 。” 纽 约 葡萄 酒 商人 威廉 
姆 。 萨 科 林 认 为 ,从 波尔多 葡萄 酒 产 业 的 角度 来 看 , 奥 利 的 做 法 “ 介 于 极端 和 滑稽 可 笑 之 
间 ”。 因 此 , 奥 利 常常 被 业界 人 士 取笑 。 当 奥 利 在 克 里 斯 带 拍卖 行 酒 品 部 做 关于 葡萄 酒 的 
演讲 时 , 坐 在 后 排 的 交易 商 咕 声 一 片 。 

发 行 过 《葡萄 爱好 者 》 杂 志 的 罗伯特 。 帕 克 大 概 是 世界 上 最 有 影响 力 的 以 葡萄 酒 为 题 
材 的 作家 了 。 他 把 奥 利 形容 为 一 个 彻头彻尾 的 骗子 ”, 尽 管 奥 利 是 世界 上 最 受 郊 重 的 数 
量 经 济 学 家 之 一 ,但 是 他 的 方法 对 于 帕克 来 说 ,“ 其 实 是 在 用 尼 安 德 特 人 的 思维 (讽刺 其 思 
维 原始 ) 来 看 待 葡萄 酒 。 这 是 非常 荒 廖 甚至 非常 可 笑 的 ”帕克 完全 否定 了 数学 方程 式 有 
助 于 鉴别 出 口感 真正 好 的 葡萄 酒 ,如 果 他 邀请 我 去 他 家 喝酒 ,我 会 感到 恶心 。 

帕克 说 奥 利 " 就 像 某 些 影 评 一 样 ,根据 演员 和 导演 来 告诉 你 电影 有 多 好 ,实际 上 却 从 
没 看 过 那 部 电影 ”。 

帕克 的 意思 是 ,人 们 只 有 亲自 去 看 过 了 一 部 影片 ,才能 更 精准 地 评价 它 , 如 果 要 对 和 葡 
葡 酒 的 品质 评判 得 更 准确 ,也 应 该 亲自 去 品尝 一 下 。 但 是 有 这 样 一 个 问题 ; 在 好 几 个 月 
的 时 间 里 ,人 们 是 无 法 品尝 到 葡 葡 酒 的 。 波 尔 
多 和 牧民 第 的 葡 葡 酒 在 装 壮 之 前 需要 盛 放 在 
橡木 桶 里 发 酝 18 一 24 个 月 (图 7-2)。 像 帕克 
这 样 的 评 酒 专家 需要 酒 装 在 桶 里 4 个 月 以 后 
才能 第 一 次 品尝 ,在 这 个 阶段 ,葡萄 酒 还 只 是 
臭 臭 的 发酵 的 葡萄 而 已 。 不 知道 此 时 这 种 无 
法 下 咽 的 “ 酒 ” 是 否 能 够 使 品尝 者 得 出 关于 酒 
的 品质 的 准确 信息 。 例 如 ,巴特 菲 德 拍卖 行 酒 
品 部 的 前 经 理 布 鲁 斯 。 凯 泽 曾 经 说 过 :“ 发 酵 图 7-2 葡萄酒 窖藏 
初期 的 葡萄酒 变化 非常 快 , 没 有 人 ,我 是 说 不 
可 能 有 人 ,能 够 通过 品尝 来 准确 地 评估 酒 的 好 坏 。 至 少 要 放 上 10 年 ,甚至 更 久 。” 

与 之 形成 鲜明 对 比 的 是 , 奥 利 从 对 数字 的 分 析 中 能 够 得 出 气候 与 酒 价 之 间 的 关系 。 
他 发 现 冬季 降雨 量 每 增加 1 毫米 , 酒 价 就 有 可 能 提高 0.001 17 美元 。 当 然 , 这 只 是 “有 可 
能 ”而 已 。 不 过 ,对 数据 的 分 析 使 奥 利 可 以 预测 葡萄 酒 的 未 来 品质 一 一 这 是 品 酒 师 有 机 会 
尝 到 第 一 口 酒 的 数 月 之 前 ,更 是 在 葡萄 酒 卖 出 的 数 年 之 前 。 在 葡萄 酒 期 货 交 易 活 跃 的 今 
天 ，, 奥 利 的 预测 能 够 给 葡萄 酒 收集 者 极 大 的 帮助 。 

20 世纪 80 年 代 后 期 , 奥 利 开始 在 半年 刊 的 简报 《流动 资产 》 上 发 布 他 的 预测 数据 。 
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最 初 , 他 在 《葡萄酒 观察 家 》 上 给 这 个 简报 做 小 广告 , 随 之 有 六 百 多 人 开始 订阅 。 这 些 订阅 
者 的 分 布 是 很 广泛 的 ,包括 很 多 百 万 富 仁 以 及 疡 迷 葡 葡 酒 的 人 一 一 这 是 一 些 可 以 接受 计 
量 方法 的 葡萄 酒 收 集 爱 好 者 。 与 每 年 花 30 美元 来 订阅 罗伯特 。 帕 克 的 简报 (葡萄酒 爱好 
者 》 的 30 000 人 相 比 《流动 资产 》 的 订阅 人 数 确 实 少 得 可 怜 。 

20 世纪 90 年 代 初 期 《纽约 时 报 》 在 头 版 头条 登 出 了 奥 利 的 最 新 预测 数据 ,这 使 得 更 
多 人 了 解 了 他 的 思想 。 奥 利 公 开 批 判 了 帕克 对 1986 年 波尔多 葡萄 酒 的 估价 。 帕 克 对 
1986 年 波尔多 葡萄 酒 的 评价 是 “品质 一 流 , 甚 至 非常 出 色 ”。 但 是 奥 利 不 这 么 认为 ,他 
认为 由 于 生产 期 内 过 低 的 平均 气温 以 及 收获 期 过 多 的 雨水 ,这 一 年 葡萄 酒 的 品质 注定 
bi 

当然 , 奥 利 对 1989 年 波尔多 葡萄 酒 的 预测 才 是 这 篇 文章 中 真正 让 人 吃惊 的 地 方 , 尽 
管 当时 这 些 酒 在 木 桶 里 仅 放置 了 三 个 月 ,还 从 未 被 品 酒 师 品 尝 过 , 奥 利 预测 这 些 酒 将 成 为 
“世纪 佳酿 "。 他 保证 这 些 酒 的 品质 将 会 “ 令 人 震惊 地 一 流 ”。 根 据 他 自己 的 评级 ,如 果 
1961 年 的 波尔多 葡萄 酒 评级 为 100 的 话 , 那 么 1989 年 的 葡萄 酒 将 会 达到 149。 奥 利 甚 至 
大 胆 地 预测 ,这 些 酒 “ 能 够 卖 出 过 去 35 年 中 所 生产 的 葡萄 酒 的 最 高 价 ”。 

看 到 这 篇 文章 , 评 酒 专 家 非常 生气 。 帕 克 把 奥 利 的 数量 估计 描述 为 “思春 可 笑 ”。 萨 
科 林 说 当时 的 反应 是 “ 既 愤 怒 又 恐惧 。 他 确实 让 很 多 人 感到 丽 慌 。” 在 接 下 来 的 几 年 中 ， 
《葡萄 酒 观察 家 》 拒 绝 为 奥 利 ( 以 及 其 他 人 ) 的 简报 做 任何 广告 (图 7-3) 。 

评 酒 专家 们 开始 辩解 ,极力 指责 奥 利 本 人 以 及 他 所 提出 的 方法 。 他 们 说 他 的 方法 是 
错 的 ,因为 这 一 方法 无 法 准确 地 预测 未 来 的 酒 价 。 例 如 《葡萄 酒 观察 家 》 的 品 酒 经 理 托 马 
斯 。 马 体 斯 抱 她 说 , 奥 利 对 价格 的 预测 ,在 27 种 酒 中 只 有 三 次 完全 准确 ”。 即 使 奥 利 的 
公式 “是 为 了 与 价格 数据 相符 而 特别 设计 的 ”, 他 所 预测 的 价格 却 " 要 么 高 于 ,要 么 低 于 真 
实 的 价格 ”。 然 而 ,对 于 统计 学 家 (以 及 对 此 稍 加 思考 的 人 ) 来 说 ,预测 有 时 过 高 ,有 时 过 低 
是 件 好 事 ,因为 这 恰好 说 明 估 计量 是 无 偏 的 。 
因此 ,帕克 不 得 不 常常 降低 自己 最 初 的 评级 。 

1990 年 , 奥 利 更 加 陷于 孤立 无 援 的 境地 。 
在 宣称 1989 年 的 葡萄 酒 将 成 为 “世纪 佳酿 "之 
后 .数据 告诉 他 1990 年 的 葡萄 酒 将 会 更 好 ,而 
且 他 也 照 实 说 了 。 现 在 回头 再 看 ,我 们 可 以 发 
现 当 时 《流动 资产 ) 的 预测 惊人 地 准确 。1989 
年 的 葡萄 酒 确 实 是 难得 的 佳酿 ,而 1990 年 的 也 

图 7-3 ”葡萄酒 收藏 确实 更 好 。 
怎么 可 能 在 连续 两 年 中 生产 出 两 种 “世纪 
佳酿 " 呢 ? 事实 上 , 自 1986 年 以 来 ,每 年 葡萄 生长 期 的 气温 都 高 于 平均 水 平 。 法 国 的 天 气 
连续 二 十 多 年 温暖 和 购 。 对 于 葡萄 酒 爱 好 者 们 而 言 , 这 显然 是 生产 柔润 的 波尔多 葡 葡 酒 
的 最 适宜 的 时 期 。 

传统 的 评 酒 专家 们 现在 才 开 始 更 多 地 关注 天 气 因素 。 尽 管 他 们 当中 很 多 人 从 未 公开 
承认 奥 利 的 预测 ,但 他 们 自己 的 预测 也 开始 越 来 越 密切 地 与 奥 利 那个 简单 的 方程 式 联系 
在 一 起 。 此 时 奥 利 依 然 在 维护 自己 的 网 站 ,但 他 不 再 制作 简报 。 他 说 :“ 和 过 去 不 同 的 
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是 , 品 酒 师 们 不 再 犯 严重 的 错误 了 。 坦 率 地 说 ,我 有 点 儿 自 绝 前 程 , 我 不 再 有 任何 附加 
林村 

指责 奥 利 的 人 仍然 把 他 的 思想 看 作 是 异端 那 说 ,因为 他 试图 把 葡 葡 酒 的 世界 看 得 更 
清楚 。 他 从 不 使 用 华丽 的 缮 茹 和 毫 无 意义 的 术语 ,而 是 直接 说 出 预测 的 依据 。 

整个 葡萄 酒 产 业 毫 不 妥协 不 仅仅 是 在 做 表面 文章 。“ 葡 萄 酒 经 销 商 及 专栏 作家 只 是 
不 希望 公众 知道 奥 利 所 做 出 的 预测 。” 遍 泽 说 ,“ 这 一 点 从 1986 年 的 葡 欧 酒 就 已 经 显现 出 
来 了 。 奥 利 说 品 酒 师 们 的 评级 是 骗 人 的 ,因为 那 一 年 的 气候 对 于 葡萄 的 生长 来 说 非常 不 
利 , 雨 水 泛滥 ,气温 也 不 够 高 。 但 是 当时 所 有 的 专栏 作家 都 言辞 激烈 地 坚持 认为 那 一 年 的 
酒会 是 好 酒 。 事 实证 明 奥 利 是 对 的 ,但 是 正确 的 观点 不 一 定 总 是 受 欢迎 的 。” 

葡萄 酒 经 销 商 和 专栏 评论 家 们 都 能 够 从 维持 自己 在 葡萄 酒 品 质 方面 的 信息 垄断 者 地 
位 中 受益 。 葡 葡 酒 经 销 商 利用 长 期 高 估 的 最 初评 级 来 稳定 葡萄 酒 价 格 。《 葡 葡 酒 观察 家 》 
和 《葡萄 酒 爱 好 者 》 能 否 保 持 葡萄 酒 品 质 的 仲裁 者 地 位 ,决定 着 上 百 万 资金 的 生死 。 很 多 
人 要 谋生 ,就 只 能 依赖 于 喝酒 的 人 不 相信 这 个 方程 式 。 

也 有 迹象 表明 事情 正在 发 生变 化 。 伦 敦 克 里 斯 带 拍卖 行 国际 酒 品 部 主席 迈克 尔 。 布 
罗 德 本 特 委婉 地 说 :“ 很 多 人 认为 奥 利 是 个 怪人 ,我 也 认为 他 在 很 多 方面 的 确 很 怪 。 但 是 
我 发 现 , 他 的 思想 和 工作 会 在 多 年 后 依然 留 下 光 逻 的 痕迹 。 他 所 做 的 努力 对 于 打算 买 酒 
的 人 来 说 非常 有 帮助 。” 

阅读 上 文 , 请 思考 、 分 析 并 简单 记录 : 

(1) 请 通过 网 络 搜索 ,详细 了 解法 国 城市 波尔多 ,了 解 其 地 理 特 点 和 波尔多 葡萄 酒 ， 
并 就 此 做 简单 介绍 。 

答 : 


(2) 对 葡萄 酒 品质 的 评价 ,传统 方法 的 主要 依据 是 什么 ? 而 奥 利 的 预测 方法 是 什么 ? 
答 : 


(3) 虽然 后 来 的 事实 肯定 了 奥 利 的 葡萄 酒 品 质 预 测 方法 ,但 这 是 否 就 意味 着 传统 
品 酒 师 的 职业 就 没有 必要 存在 了 ? 你 认为 传统 方法 和 大 数据 方法 的 关系 应 该 如 何 
处 理 ? 

答 : 
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(4) 请 简单 描述 你 所 知道 的 上 一 周 发 生 的 国际 .国内 或 者 身边 的 大 事 。 
答 : 


7.1 什么 是 预测 分 析 


预测 分 析 是 一 种 统计 或 数据 挖掘 解决 方案 ,可 在 结构 化 和 非 结 构 化 数据 中 使 用 以 确 
定 未 来 结果 的 算法 和 技术 ,可 用 于 预测 .优化 、 预 报 和 模拟 等 许多 用 途 。 大 数据 时 代 下 , 作 
为 其 核心 ,预测 分 析 已 在 商业 和 社会 中 得 到 广泛 应 用 。 随 着 越 来 越 多 的 数据 被 记录 和 整 
理 ,未 来 预测 分 析 必 定 会 成 为 所 有 领域 的 关键 技术 。 


7.1.1 预测 分 析 的 作用 


预测 分 析 和 假设 情况 分 析 可 帮助 用 户 评 审 和 权衡 潜在 决策 的 影响 力 , 用 来 分 析 历 史 
模式 和 概率 ,以 预测 未 来 业绩 并 采取 预防 措施 。 其 主要 作用 如 下 。 


1. 决策 管理 


决策 管理 是 用 来 优化 并 自动 化 业务 决策 的 一 种 卓有成效 的 成 熟 方 法 。 它 通过 预测 分 
析 让 组 织 能 够 在 制定 决策 以 前 有 所 行动 ,以 便 预测 哪些 行动 在 将 来 最 有 可 能 获得 成 功 , 优 
化 成 果 并 解决 特定 的 业务 问题 。 决 策 管理 包括 管理 自动 化 决策 设计 和 部 署 的 各 个 方面 ， 
供 组 织 管理 其 与 客户 、 员 工 和 供应 商 的 交互 。 从 本 质 上 讲 ,决策 管理 使 优化 的 决策 成 为 企 
业 业 务 流程 的 一 部 分 。 由 于 闭环 系统 不 断 将 有 价值 的 反馈 纳入 到 决策 制定 过 程 中 ,所 以 
对 于 希望 对 变化 的 环境 做 出 即时 反应 并 最 大 化 每 个 决策 的 组 织 来 说 , 它 是 非常 理想 的 
方法 。 
当今 世界 ,竞争 的 最 大 挑战 之 一 是 组 织 如 何在 决策 制定 过 程 中 更 好 地 利用 数据 。 可 
用 于 企业 以 及 由 企业 生成 的 数据 量 非常 高 且 以 惊人 的 速度 增长 。 与 此 同时 ,基于 此 数据 
制定 决策 的 时 间 段 非常 短 , 且 有 日 益 缩 短 的 趋势 。 虽 然 业务 经 理 可 能 可 以 利用 大 量 报告 
和 仪表 板 来 监控 业务 环境 ,但 是 使 用 此 信息 来 指导 业务 流程 和 客户 互动 的 关键 步骤 通常 
是 手动 的 ,因而 不 能 及 时 响应 变化 的 环境 。 和 希望 获得 竞争 优势 的 组 织 们 必须 寻找 更 好 的 
方式 。 

决策 管理 使 用 决策 流程 框架 和 分 析 来 优化 并 自动 化 决策 ,通常 专注 于 大 批量 决策 并 
使 用 基于 规则 和 基于 分 析 模型 的 应 用 程序 实现 决策 。 对 于 传统 上 使 用 历史 数据 和 静态 信 
息 作 为 业务 决策 基础 的 组 织 来 说 这 是 一 个 突破 性 的 进展 。 
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2 滚动 预测 


预测 是 定期 更 新 对 未 来 绩效 的 当前 观点 ,以 反映 新 的 或 变化 中 的 信息 的 过 程 ,是 基于 
分 析 当 前 和 历史 数据 来 决定 未 来 趋势 的 过 程 。 为 应 对 这 一 需求 ,许多 公司 正在 逐步 采用 
滚动 预测 方法 。 

7X24 小 时 的 业务 运营 影响 造就 了 一 个 持续 而 又 瞬息 万 变 的 环境 ,风险 波动 和 不 确 
定性 持续 不 断 。 并 且 , 任 何 经 济 动荡 都 具有 近乎 实时 的 深远 影响 。 

毫 无 疑问 ,对 于 这 种 变化 感受 最 深 的 是 CFO( 财 务 总 监 ) 和 财务 部 门 。 虽 然 业 务 战 
略 产品 定位 .运营 时 间 和 产品 线 改 进 的 决策 可 能 是 在 财务 部 门 外 部 做 出 ,但 制定 这 些 决 
策 的 基础 是 财务 团队 使 用 绩效 报告 和 预测 提供 的 关键 数据 和 分 析 。 具 有 前 眶 性 的 财务 团 
队 意 识 到 传统 的 战略 预测 不 能 完成 这 一 任务 ,他们 正在 迅速 采用 更 加 动态 的 滚动 的 和 基 
于 驱动 因子 的 方法 。 在 这 种 环境 中 ,预测 变 为 一 个 极其 重要 的 管理 过 程 。 为 了 抓 住 正确 
的 机 遇 ,为 了 满足 投资 者 的 要 求 , 以 及 在 风险 出 现时 对 其 进行 识别 ,很 关键 的 一 点 就 是 深 
入 了 解 潜在 的 未 来 发 展 ,管理 不 能 再 依赖 于 传统 的 管理 工具 。 在 应 对 过 程 中 , 越 来 越 多 的 
企业 已 经 或 者 正 准备 从 静态 预测 模型 转型 到 一 个 利用 滚动 时 间 范 围 的 预测 模型 。 

采取 滚动 预测 的 公司 往往 有 更 高 的 预测 精度 ,更 快 的 循环 时 间 ,更 好 的 业务 参与 度 和 
更 多 明智 的 决策 制定 。 滚 动 预测 可 以 对 业务 绩效 进行 前 脆性 预测 ;为 未 来 计划 周期 提供 
一 个 基线 ;捕获 变化 带 来 的 长 期 影响 :与 静态 年 度 预测 相 比 ,滚动 预测 能 够 在 觉察 到 业务 
决策 制定 的 时 间 点 得 到 定期 更 新 ,并 减轻 财务 团队 巨大 的 行政 负担 。 


3 预测 分 析 与 自 适应 管理 


稳定 ,持续 变化 的 工业 时 代 已 经 远 去 ,现在 是 一 个 不 可 预测 、 非 持续 变化 的 信息 时 代 。 
未 来 还 将 变 得 更 加 无 法 预测 ,员工 将 需要 具备 更 高 技能 ,创新 的 步伐 将 进一步 加 快 ,价格 
将 会 更 低 , 顾 客 将 具有 更 多 发 言 权 。 

为 了 应 对 这 些 变化 ,CFO 们 需要 一 个 能 让 各 级 经 理 快速 做 出 明智 决策 的 系统 。 他 们 
必须 将 年 度 计 划 周 期 替换 为 更 加 常规 的 业务 审核 ,通过 滚动 预测 提供 支持 ,让 经 理 能 够 看 
到 趋势 和 模式 ,在 竞争 对 手 之 前 取得 突破 ,在 产品 与 市 场 方面 做 出 更 明智 决策 。 具 体 来 
说 ,CFO 需要 通过 持续 计划 周期 进行 管理 ,让 滚动 预测 成 为 主要 的 管理 工具 ,每 天 和 每 周 
报告 关键 指标 。 同 时 需要 注意 使 用 滚动 预测 改进 短期 可 见 性 ,并 将 预测 作为 管理 手段 ,而 
不 是 度量 方法 。 


7.1.2 行业 应 用 举例 
1. 预测 分 析 帮 助 制造 业 高 效 维护 运营 并 更 好 地 控制 成 本 


一 直 以 来 ,制造 业 面 临 的 挑战 是 在 生产 优质 商品 的 同时 在 每 一 步 流程 中 优化 资源 。 
多 年 来 ,制造 商 已 经 制定 了 一 系列 成 熟 的 方法 来 控制 质量 管理 供应 链 和 维护 设备 。 如 
今 , 面 对 着 持续 的 成 本 控制 工作 ,工厂 管理 人 员 、 维 护 工程 师 和 质量 控制 的 监督 执行 人 员 
都 希望 知道 如 何在 维持 质量 标准 的 同时 避免 昂贵 的 非 计划 停 机 时 间或 设备 故障 ,以 及 如 
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何 控制 维护 .修理 和 大 修业 务 的 人 力 和 库存 成 本 。 此 外 ,财务 和 客户 服务 部 门 的 管理 人 
员 , 以 及 最 终 的 高 管 级 别 的 管理 人 员 ,与 生产 流程 能 否 很 好 地 交付 成 品 息息相关 。 


2 犯罪 预测 与 预防 ,预测 分 析 利 用 先进 的 分 析 技 术 营 造 安 全 的 公共 环境 


为 确保 公共 安全 ,执法 人 员 一 直 主 要 依靠 个 人 直觉 和 可 用 信息 来 完成 任务 。 为 了 能 
够 更 加 智慧 地 工作 ,许多 警 务 组 织 正在 充分 合理 地 利用 他 们 获得 和 存储 的 结构 化 信息 (如 
犯罪 和 罪犯 数据 ) 和 非 结 构 化 信息 (在 沟通 和 监督 过 程 中 取得 的 影音 资料 )。 通 过 汇总 、 分 
析 这 些 庞大 的 数据 ,得 出 的 信息 不 仅 有 助 于 了 解 过 去 发 生 的 情况 ,还 能 够 帮助 预测 将 来 可 
能 发 生 的 事件 。 

利用 历史 犯罪 事件 、 档 案 资 料 、 地 图 和 类 型 学 以 及 诱发 因素 (如 天 气 ) 和 触发 事件 (如 
假期 或 发 薪 日 ) 等 数据 , 警 务 人 员 将 可 以 : 确定 暴力 犯罪 频繁 发 生 的 区 域 ; 将 地 区 性 或 全 
国 性 流 起 团伙 活动 与 本 地 事件 进行 匹配 ;剖析 犯罪 行为 以 发 现 相 似 点 ,将 犯罪 行为 与 有 犯 
罪 记录 的 罪犯 挂钩 ; 找 出 最 可 能 诱发 暴力 犯罪 的 条 件 ,预测 将 来 可 能 发 生 这 些 犯罪 活动 的 
时 间 和 地 点 ;确定 重新 犯罪 的 可 能 性 。 


3 预测 分 析 帮 助 电信 运营 商 更 深入 了 解 客 户 


受 技术 和 法 规 要 求 的 推动 ,以 及 基于 互联 网 的 通信 服务 提供 商 和 模式 的 新 型 生态 系 
统 的 出 现 , 电 信 提 供 商 要 想 获得 新 的 价值 来 源 , 需 要 对 业务 模式 做 出 根本 性 的 转变 ,并 且 
必须 有 能 力 将 战略 资产 和 客户 关系 与 旨 在 抓 住 新 市 场 机 遇 的 创新 相 结合 。 预 测 和 管理 变 
革 的 能 力 将 是 未 来 电信 服务 提供 商 的 关键 能 力 。 


72 数据 情感 和 情感 数据 


情感 和 行为 是 交互 的 。 周 围 的 事物 影响 着 你 ,决定 了 你 的 情感 。 如 果 你 的 客户 取消 
了 了 订单 ,你 会 感到 失望 。 反 过 来 说 ,你 的 情感 也 会 影响 行为 。 你 现在 心情 愉快 ,因此 决定 
再 给 修理 工 一 次 机 会 来 修好 你 的 车 。 

情感 有 时 并 不 在 预测 分 析 所 考虑 的 范畴 内 。 因 为 情感 是 变幻 不 定 的 因素 ,无 法 像 事 
实 或 数据 那样 被 轻易 记录 在 表格 中 。 人 情感 主 观 且 转 瞬 即 逝 。 诚 然 , 情 感 是 人 的 一 种 重要 
的 状态 ,但 情感 的 微妙 使 得 大 部 分 科学 都 无 法 对 其 展开 研究 。 现 在 有 一 些 神经 科学 家 在 
做 实验 ,他 们 在 学 生 的 头 部 安 上 各 种 电线 和 传感器 来 观测 情感 变化 ,但 许多 数据 科学 家 觉 
得 ,这 些 实验 没有 太 多 意义 ,因此 ,情感 并 不 是 预测 分 析 科 学 的 重要 应 用 领域 。 


7.2.1 从 博客 观察 集体 情感 


2009 年 ,伊利诺伊 大 学 的 两 位 科学 家 试图 将 两 个 看 似 并 不 相关 的 科研 领域 联系 起 
来 ,以 求 发 现 集体 情感 和 集体 行为 之 间 的 内 在 关系 。 他 们 不 仅 要 观测 个 体 的 情感 ,还 要 观 
测 集体 情感 , 即 人 类 作为 整体 所 共有 的 情感 。 从 事 这 项 宏大 研究 的 就 是 当时 还 在 攻读 博 
士 学 位 的 埃 里 克 。 吉尔 伯 特 以 及 他 的 导师 卡 里 * 卡拉 哈里 奥 斯 。 他 们 希望 能 实现 重大 科 
研 突破 ,因为 人 们 从 来 不 知 该 如 何 解读 人 类 整体 情感 。 


的 加 二 玉 硬 二 而 出 合 称 


此 外 , 埃 里 克 和 卡 里 还 想 从 真实 世界 人 类 的 自发 行为 中 去 观测 集体 情感 ,而 不 仅仅 是 
在 实验 室 里 做 实验 。 那 么 ,应 该 从 哪些 方面 去 观测 这 些 集体 情感 ? 脑 电波 和 传感器 显然 
不 合适 。 一 种 可 能 性 是 ,我 们 的 文章 和 对 话 会 反映 我 们 的 情感 。 但 报纸 杂志 上 的 文章 主 
题 可 能 太 狭 隘 , 在 情感 上 也 缺乏 连贯 性 。 为 此 ,他 们 将 目光 集中 在 另 一 个 公共 资源 上 : 
博客 。 

博客 记载 了 我 们 的 各 种 情感 。 互 联网 上 兴起 的 博客 浪潮 将 此 前 私密 、 内 省 的 日 记 写 
作 变 成 了 公开 的 情感 披露 。 很 多 人 在 博客 上 自由 表达 自己 的 情感 ,没有 预先 的 议程 设置 ， 
也 没有 后 续 的 编辑 限制 。 每 天 互联 网 上 大 约会 增添 86. 4 万 篇 新 的 博客 ,作者 在 博客 中 祖 
露 着 各 类 情感 ,或 疾 呼 ,或 痛楚 ,或 狂言 ,或 停 奇 ,或 愤怒 ,在 互联 网 上 自愿 吐露 自己 的 心 
声 。 从 某 种 意义 上 说 ,博客 的 情感 也 代表 着 普罗 大 众 的 情感 ,因此 ,可 以 从 博客 上 读 到 人 
类 的 整体 情感 。 


7.2.2 预测 分 析 博 客 中 的 情绪 


在 设计 如 何 记录 博客 中 的 情绪 时 ,两 位 科学 家 选择 了 恺 惧 和 焦虑 两 种 情绪 。 在 所 有 
情绪 中 ,焦虑 对 人 们 的 行为 有 很 重要 的 影响 。 心 理学 研究 指出 : 恐惧 会 让 人 规避 风险 ,而 
镇 静 则 能 让 人 自如 行事 。 恐 惧 会 让 人 以 保守 姿态 采取 后 撤 行为 ,不 敢 轻 易 涉 险 。 

要 想 记 录 这 些 情感 ,第 一 步 就 是 要 发 现 博 客 中 的 焦虑 情绪 。 要 想 研 发 出 能 探测 到 焦 
虚 情 绪 的 预测 分 析 系 统 ,首先 就 要 有 充分 的 博客 样本 ,这 些 样 本 中 已 经 被 证 明 是 否 含有 焦 
虚 情 绪 。 这 将 为 预测 模型 的 研发 提供 所 需 的 数据 ,帮助 区 分 哪些 博客 中 蕴含 着 焦虑 情绪 ， 
哪些 博客 中 蕴含 着 镇 静 情 绪 。 

埃 里 克 和 卡 里 决定 从 博客 网 站 LiveJournal? 入 手 , 在 这 家 网 站 上 ,作者 发 表 博 文 之 
后 ,可 从 132 项 “情绪 ?选项 中 选择 文章 的 对 应 标签 (图 7-4) ,这 些 情绪 包括 愤怒 、 忙 碌 、 醉 
酒 、 轻 傣 、 饥 渴 以 及 劳累 等 。 如 果 每 次 作者 都 能 输入 情绪 标签 ,那么 他 就 能 获得 若干 情绪 
图 标 , 这 是 代表 某 种 情绪 的 有 趣 的 表情 符号 。 例 如 ,害怕 ”的 表情 符号 就 是 惊恐 的 表情 和 
睁 大 双眼 。 有 了 这 些 情 绪 标 签 后 ,内 容 各 异 的 博客 就 与 作者 的 情感 构建 了 联系 。 语 言 是 
模糊 和 间接 的 情感 表达 方式 ,而 我 们 通常 都 无 法 直接 看 到 作者 的 主观 内 在 情感 。 


国 因 因 国 四 前 四 遇 因 二 四 四 因 电 
贡 因 四 轩辕 四 胃 国 因 因 四 四 对 
EAA 
励 久 国 四 四 罗 朋 站 国电 四 四 四 全 


7-4 QQ 的 情绪 图 标 


四 LiveJournal 是 一 个 综合 型 SNS 交友 网 站 ,有 论坛 .博客 等 功能 ,由 Brad Fitzpatrick 始 建 于 1999 年 4 月 15 
日 ,其 最 初 目的 是 为 了 与 同学 保持 联系 ,之 后 发 展 为 大 型 网 络 社区 平台 ,是 网 友 聚 集 的 好 地 方 , 支持 多 国语 言 ,而 在 英 
语 国 家 最 为 流行 ,美国 拥有 其 最 多 用 户 。 


太监 蝎 导 人 双 


两 位 研究 者 以 从 2004 年 开始 的 60 万 篇 博客 为 研究 对 象 , 从 中 选择 那些 被 作者 打上 
“焦虑 ”"“ 担 忧 "“ 紧 张 " 和 “害怕 ”标签 的 文章 ,大 约 有 1.3 万 篇 ,有 这 些 标签 的 文章 被 认定 
是 在 表达 焦虑 情绪 。 这 些 文章 被 当 作 样 本 ,并 在 此 基础 上 建立 了 预测 模型 ,由 此 来 预测 某 
博客 是 否 在 表达 焦虑 情绪 。 

大 部 分 在 LiveJournal 上 发 表 的 博客 都 没有 对 应 的 情绪 标签 ,其 他 网 站 发 表 的 博客 也 
大 都 没有 情绪 标签 ,因此 需要 研发 出 预测 模型 来 探知 人 类 博客 中 的 情感 。 大 部 分 博客 都 
不 会 直接 谈论 情感 ,因此 只 能 通过 博 主 所 写 的 内 容 来 分 析 推 导出 其 主观 情感 。 预 测 模型 
就 是 要 发 挥 这 样 的 分 析 作 用 。 与 其 他 预测 模型 一 样 ,博客 情绪 预测 模型 的 主要 功能 也 是 
对 那些 此 前 没有 经 过 分 析 的 文章 给 出 焦虑 情绪 分 数 。 

这 次 ,预测 模型 应 对 的 是 复杂 多 变 的 人 类 语言 ,为 此 ,焦虑 情绪 预测 模型 的 预测 流程 
相对 要 简单 和 直接 一 些 , 即 看 文章 里 是 否 出 现 某 些 关键 词 ,然后 加 以 运算 。 这 些 预测 模型 
并 不 是 要 完全 理解 博客 的 内 容 。 例 如 ,预测 模型 的 某 项 参考 指标 是 看 博客 内 容 里 表达 焦 
虚 的 词汇 ,例如 “紧张 "“ 害 怕 ”、“ 面 试 "“ 医 院 " 等 ,以 及 文章 里 面 是 否 缺乏 那些 非 焦虑 博 
客 中 常见 的 词汇 ,例如 “ 太 好 了 ”、“ 真 棒 ”“ 爱 "等 。 

尽管 焦虑 情绪 预测 模型 并 不 能 做 到 尽善尽美 ,但 至 少 这 样 的 模型 可 大 致 分 析出 集体 
情感 。 它 每 天 只 能 发 现 28% 一 32% 的 焦虑 情 绪 文 章 , 但 假设 某 天 表达 焦虑 情绪 的 博客 忽 
然 比 前 一 天 翻 了 一 倍 , 那 么 这 一 变化 就 不 会 被 忽略 。 对 那些 被 打上 了 焦虑 情绪 标签 的 博 
客 ,其 识别 是 相对 精确 的 ,将 非 焦虑 文章 错 认为 焦虑 文章 的 差错 率 仅 在 3% 一 6% 之 间 。 

埃 里 克 和 卡 里 根据 当天 蕴含 焦虑 情绪 的 博客 数量 的 变化 得 出 了 焦虑 指数 ,该 指数 大 
臻 上 衡量 了 当天 大 众 的 焦虑 程度 。 通 过 这 种 方法 ,人 类 整体 情绪 被 视 为 一 项 可 观测 的 指 
标 ,这 两 位 研究 者 研发 的 系统 通过 解读 大 众 的 焦虑 而 得 以 反映 集体 情绪 。 有 时 ,我 们 会 相 
对 镇 静 和 放松 ;有 时 ,我们 则 变 得 很 焦虑 。 

LiveJoumal 网 站 作为 大 众 的 焦虑 指数 数据 来 源 是 合适 的 。 卡 里 和 埃 里 克 说 ,这 家 博 
客 网 站 “是 公认 的 公共 空间 ,人 们 在 上 面 记录 自 己 的 个 人 思想 和 日 常生 活 ”。 这 家 网 站 并 
不 针对 某 些 特定 群体 ,而 是 向 "从 家 庭 主妇 到 高 中 学 生 " 等 各 类 人 群 开放 。 

继 埃 里 克 和 卡 里 的 研究 后 ,很 多 后 续 研 究 都 显示 了 人 类 和 集体 情绪 是 如 何 波动 的 。 例 如 ， 
印第安 纳 大 学 的 研究 人 员 研 发 了 一 套 相 似 的 通过 考察 关键 词 观测 情绪 的 系统 ,通过 “镇 静 - 
焦虑 ”( 与 焦虑 指数 相似 ,但 增加 了 镇 静 指 数 。 例 如 ,指数 为 正 表示 镇 静 , 指 数 为 负 则 表示 焦 
虑 ) 以 及 “幸福 -痛苦 "指数 来 描绘 公众 情绪 。 图 7-5 就 是 根据 推 特 上 的 内 容 所 画 出 的 2008 年 
10 一 12 月 期 间 大 众 情绪 波动 图 。 该 图 显示 ,我 们 会 在 狂喜 与 绝望 之 间 摇 摆 , 这 些 剧 烈 波 动 
的 曲线 表明 ,我 们 是 高 度 情绪 化 的 。 这 段 时 间 包 括 美 国 总 统 大 选 和 感恩 节 等 重要 日 子 , 当 选 
举 日 投票 结束 后 .我们 开始 变 得 镇 静 , 而 感恩 节 当 天 ,我 们 的 幸福 指数 又 然 飙 升 。 

但 这 种 只 针对 几 个 重点 日 子 的 研究 显然 是 不 够 的 。 尽 管 埃 里 克 和 卡 里 的 焦虑 指数 很 
有 创新 性 ,但 这 并 不 能 证 明 该 指数 的 价值 ,也 无 法 获得 研究 界 广 泛 的 认可 。 如 果 焦 虑 指数 
无 法 印证 其 价值 ,那么 它 可 能 会 随 着 时 间 的 推移 而 被 潭 没 ,为 此 , 埃 里 克 和 卡 里 进行 了 进 
一 步 研究 ,要 证 明 这 个 衡量 我 们 主观 情绪 的 指数 与 现实 世界 的 实践 存在 客观 联系 。 否则， 
我 们 就 无 法 真正 证 明 该 系统 成 功 把 握 了 人 类 的 集体 情绪 ,那么 .该 研究 项 目的 价值 仅仅 是 
“形成 了 一 堆 数字 而 已 ”。 
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10 月 22 日 10 月 29 日 11 月 5 日 11 月 12 日 11 月 19 日 11 月 26 日 
图 7-5 2008 年 10 一 12 月 (美国 ) 大 众 情绪 波动 图 


7.2.3 ”影响 情绪 的 重要 因素 一 一 金钱 


埃 里 克 和 卡 里 将 希望 押 在 了 情绪 的 重要 影响 因素 上 : 金钱 。 显然, 金钱 足以 影响 人 
们 的 情绪 。 钱 是 衡量 人 过 得 如 何 的 重要 标准 ,因此 .为 何不 观察 人 们 的 情感 与 财务 状况 之 
间 的 紧密 关系 呢 ? 1972 年 的 一 个 经 典 心理 学 实验 表明 ,哪怕 人 们 在 公用 电话 亭 发 现 有 一 
块 钱 余额 可 用 ,心里 也 会 产生 莫大 的 满足 感 ,进而 使 得 幸福 感 陡 增 。“ 擒 钱 啦 1” 听 到 这 句 
话 时 ,每 个 人 都 会 血脉 责 张 。 无 论 如 何 , 金 钱 与 情感 之 间 肯 定 存在 某 种 联系 ,这 将 给 埃 里 
克 和 卡 里 的 研究 提供 充分 的 证 明 。 

股市 是 验证 焦虑 指数 的 理想 场所 (图 7-6) 。 
只 有 真正 看 到 人 们 采取 了 集体 行动 ,我 们 才能 
验证 集体 情绪 指标 确实 有 效 ,经 济 活动 将 是 观 
测 社会 整体 乐观 和 悲观 情绪 起 伏 的 重要 标准 。 
除了 科学 意义 上 的 验证 之 外 ,这 项 预测 还 带 来 
了 充满 诱惑 的 应 用 前 景 : 股市 预测 。 如 果 集 体 
情感 能 够 影响 到 后 续 的 股票 走势 .那么 通过 章 AI 
析 博 客 中 的 大 众 情 绪 将 有 助 于 预测 股价 ,这 种 ”图 7-6 股市 是 验证 焦虑 指数 的 理想 场所 
新 型 的 预测 模型 有 可 能 带 来 巨额 的 财富 。 

埃 里 克 和 卡 里 继续 深入 研究 。 埃 里 克 选 择 了 2008 年 几 个 月 内 的 美国 标准 普尔 股 
指 9( 美 国 股市 的 晴雨 表 ) 的 每 日 收盘 值 , 看 看 在 这 短 短 几 个 月 中 ,股指 的 无 序 涨 跌 是 否 与 
相同 时 期 内 焦虑 指数 的 涨 跌 走势 吻合 。 

要 想 证 明 焦虑 指数 的 效力 很 难 。 刚 开始 时 ,两 位 研究 者 认为 ,只 要 一 个 月 就 能 获得 肯 
定 结论 ,但 他 们 无 数 次 的 尝试 都 以 失败 而 告终 。 为 此 ,他 们 与 大 学 其 他 学 科 的 专家 讨论 ， 
包括 数学 .统计 学 和 经 济 学 的 同事 。 他 们 也 中 华尔街 的 金融 工程 师 们 讨论 。 但 是 ,在 他 们 
正在 摸索 前 行 的 科学 领域 ,没有 人 能 为 他 们 指点 迷津 。 卡 里 说 :“ 我 们 在 黑暗 中 摸索 了 很 


四 标准 .普尔 500 指数 是 由 标准 。 普尔 公司 1957 年 开始 编制 的 。 最 初 由 425 种 工业 股票 、15 种 铁路 股票 和 
60 种 公用 事业 股票 组 成 。 从 1976 年 7 月 1 日 开始 ,其 成 分 股改 由 400 种 工业 股票 .20 种 运输 业 股 票 .40 种 公用 事业 
股票 和 40 种 金融 业 股 票 组 成 。 与 道 。 琼 斯 工业 平均 股票 指数 相 比 ,标准 。 普尔 500 指数 具有 采样 面 广 ,代表 性 强 、 精 
确 度 高 .连续 性 好 等 特点 ,被 普遍 认为 是 一 种 理想 的 股票 指数 期 货 合约 的 标的 。 
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长 时 间 , 当 时 并 没有 任何 公认 的 研究 方法 ”经 过 一 年 半 的 尝试 和 挫折 后 , 埃 里 克 和 卡 里 还 
是 得 不 出 结论 。 他 们 没有 获取 确 冀 的 证 据 来 证 明 其 猜想 。 

这 样 的 实验 要 耗费 许多 资源 , 埃 里 克 和 卡 里 也 开始 对 研究 项 目的 可 行 性 提出 了 质疑 。 
此 时 ,他 们 必须 思考 何 时 放弃 项 目 并 将 损失 控制 在 一 定 范围 内 。 即 便 整体 理论 成 立 , 大 众 
情绪 确实 能 影响 到 股市 ,那么 焦虑 指数 是 否 能 精确 跟踪 大 众 情绪 的 波动 呢 ? 

但 新 的 希望 又 开始 出 现 。 当 他 们 重新 观察 这 些 数据 时 ,忽然 又 想到 了 新 的 方法 。 
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大 部 分 数据 的 堆积 都 不 是 为 了 预测 ,但 预测 分 析 系统 能 从 这 些 庞大 的 数据 中 学 到 预 
测 未 来 的 能 力 , 正 如 你 可 以 从 自己 的 经 历 中 汲取 经 验 教训 那样 。 

数据 最 激动 人 心 的 不 是 其 数量 ,而 是 其 增长 速度 。 我 们 会 敬畏 数 据 的 庞大 数量 ,因为 
有 一 点 永远 不 会 变 , 那 就 是 : 今天 的 数据 必然 比 昨 天 多 。 规 模 是 相对 的 ,而 不 是 绝对 的 。 
数据 规模 并 不 重要 ,重要 的 是 膨胀 速度 。 

世上 万 物 均 有 关联 ,只 不 过 有 些 是 间接 关系 ,这 在 数据 中 也 有 反映 。 例 如 : 

(1) 你 的 购买 行为 与 你 的 消费 历史 、 在 线 习惯 ,支付 方式 以 及 社会 交往 人 和 群 相关 。 数 
据 能 从 这 些 因素 中 预测 出 消费 者 的 行为 。 

(2) 你 的 身体 健康 状况 与 生命 选择 和 环境 有 关 , 因 此 数据 能 通过 小 区 以 及 家 庭 规模 
等 信息 来 预测 你 的 健康 状态 。 

(3) 你 对 工作 的 满意 程度 与 你 的 工资 水 平 . 表 现 评定 以 及 升 职 情况 相关 ,而 数据 则 能 
反映 这 些 现实 。 

(4) 经 济 行为 与 人 类 情感 相关 ,因此 正如 下 文 所 述 ,数据 也 将 反映 这 种 关系 。 

数据 科学 家 通过 预测 分 析 系 统 不 断 地 从 数据 堆 中 找到 规律 。 如 果 将 数据 整合 在 一 
起 ,尽管 你 不 知道 自己 将 从 这 些 数据 里 发 现 什么 ,至 少 能 通过 观测 解读 数据 语言 来 发 现 某 
些 内 在 联系 。 数 据 效应 就 是 这 么 简单 。 

预测 常常 是 从 小 处 入 手 。 预 测 分 析 是 从 预测 变量 开始 的 ,这 是 对 个 人 单一 值 的 评测 。 
近期 性 就 是 一 个 常见 的 变量 ,表示 某 人 最 近 一 次 购物 ,最近 一 次 犯罪 或 最 近 一 次 发 病 到 现在 
的 时 间 ,近期 值 越 接近 现在 ,观察 对 象 再 次 采取 行动 的 概率 就 越 高 。 许 多 模型 的 应 用 都 是 从 
近期 表现 最 积极 的 人 群 开始 的 ,无 论 是 试图 建立 联系 .开展 犯罪 调查 还 是 进行 医疗 诊断 。 

与 此 相似 ,频率 一 一 描述 某 人 做 出 相同 行为 的 次 数 也 是 常见 且 富有 成 效 的 指标 。 如 果 
有 人 此 前 经 常 做 某 事 , 那 么 他 再 次 做 这 件 事 的 概率 就 会 很 高 。 实 际 上 ,预测 就 是 根据 人 的 过 
去 行为 来 预见 其 未 来 行为 。 因 此 ,预测 分 析 模型 不 仅 要 靠 那些 枯燥 的 基本 人 口 数 据 , 例 如 住 
址 性别 等 ,也 要 涵盖 近期 性 ,频率 ,购买 行为 .经 济 行为 以 及 电话 和 上 网 等 产品 使 用 习惯 之 类 
的 行为 预测 变量 。 这 些 行 为 通常 是 最 有 价值 的 ,因为 要 预测 的 就 是 未 来 是 否 还 会 出 现 这 些 行 
为 ,这 就 是 通过 行为 来 预测 行为 的 过 程 。 正 如 哲学 家 萨 特 所 言 :“ 人 的 自我 由 其 行为 决定 。” 

预测 分 析 系 统 会 综合 考虑 数 十 项 甚至 数 百 项 预测 变量 。 你 要 把 个 人 的 全 部 已 知 数据 
都 输入 系统 ,然后 等 着 系统 运转 。 系 统 内 综合 考量 这 些 因素 的 核心 学 习 技 术 正 是 科学 的 
魔力 所 在 。 
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74 情感 的 因果 关系 


埃 里 克 。 吉尔 伯 特 和 卡 里 卡拉 哈里 奥 斯 想 要 证 明 的 是 博客 与 大 众 情 感 是 否 存 在 联 
系 , 而 不 是 探究 这 两 者 之 间 是 否 存在 因果 关系 。“ 显 然 ,我 们 不 是 在 寻找 因果 关系 .” 他 们 
在 发 表 的 某 篇 研究 文章 中 写 道 。 他 们 不 需要 去 建立 因果 关系 ,他 们 想 要 证 明 的 仅仅 是 焦 
虑 指数 每 日 波动 与 经 济 活动 日 常 起 落 之 间 存 在 某 种 联系 。 如 果 这 种 联系 存在 , 那 就 足以 
证 明 ,焦虑 指数 能 够 反映 现实 而 不 是 纯粹 的 主观 腾 想 。 为 了 寻求 这 种 抽象 联系 , 埃 里 克 和 
卡 里 打破 了 常规 。 


7.4.1 焦虑 指数 与 标 普 500 指数 


在 普通 的 研究 项 目 中 ,如 果 要 证 明 两 个 事物 之 间 存 在 联系 ,那么 首先 要 假定 两 者 之 间 
存在 某 种 确定 的 关系 。 某 位 批评 人 士 说 , 埃 里 克 和 卡 里 的 研究 缺乏 “可 接受 的 研究 方法 ”， 
很 难 证 明 这 种 联系 是 真实 的 。 当 研究 领域 从 个 体 的 心理 活动 转向 人 类 集体 的 情感 变化 
时 , 摆 在 人 们 面前 的 是 各 种 可 能 存在 的 因果 关系 。 是 艺术 反映 了 现实 ,还 是 现实 反映 了 艺 
术 ? 博客 反映 了 世界 现象 ,还 是 推动 了 世界 现象 ? 人 类 的 整体 情感 如 何 强化 升级 ? 情感 
是 否 会 像 涟 满 那 样 在 人 群 间 传递 ? 在 谈 到 集体 心理 时 , 弗 洛 伊 德 曾 说 :“ 组 建 团队 最 为 明 
显 也 是 最 为 重要 的 后 果 就 是 每 个 成 员 的 “情感 升华 与 强化 ”。”2008 年 ,哈佛 大 学 和 其 他 一 
些 研 究 机 构 的 研究 证 明了 这 个 观点 ,因为 幸福 感 可 以 像 “ 传 染病 ?那样 在 社交 网 站 上 蔓延 。 
那么 ,博客 中 所 表现 出 来 的 焦虑 是 否 会 影响 到 股市 呢 ? 

埃 里 克 和 卡 里 的 研究 没有 预先 设 定 任何 假设 。 尽 管 集体 心理 和 情绪 具有 不 可 捉摸 的 复 
杂 性 ,但 这 两 位 研究 人 员 也 接受 了 宽泛 的 假设 , 即 焦虑 象征 着 经 济 无 活力 。 如 果 投 资 者 某 天 
感到 焦虑 ,那么 他 所 采取 的 策略 就 是 利用 套现 来 抵御 市 场 波动 , 当 投资 者 重新 变 得 冷静 自信 
时 ,他 就 会 愿意 承担 风险 而 选择 买 人 。 买 人 越 多 ,股价 越 高 , 标 普 500 指数 也 就 越 高 。 

但 从 某 种 意义 上 说 ,情绪 与 股价 之 间 的 关系 变幻 莫 测 , 令 人 着 迷 。 大 千 世 界 中 的 芸芸 
生 认 为 ,情绪 和 行动 之 间 、 人 与 人 之 间 以 及 表达 情感 者 和 最 终 行 动 者 之 间 存 在 着 因果 关系 。 
数据 显示 ,这 些 因果 关系 会 相互 作用 .我们 可 通过 预测 技术 来 发 现 数据 中 隐藏 的 规律 。 

埃 里 克 和 卡 里 做 了 无 数 的 尝试 ,但 需要 验证 的 内 容 实 在 是 太 复 杂 了 。 如 果 说 公众 的 
焦虑 情绪 指数 确实 能 预测 股价 ,那么 它 能 提前 多 久 预测 到 呢 ? 公众 的 焦虑 情绪 需要 多 少 
天 才 会 对 经 济 产生 影响 ? 大 家 应 该 在 晚 一 天 还 是 晚 一 个 月 来 看 待 焦虑 对 股价 的 影响 呢 ? 
影响 到 底 会 表现 在 哪里 呢 , 是 市 场 总 的 运行 趋势 还 是 股市 绝对 值 或 交易 量 呢 ? 最 初 的 发 
现 让 这 两 位 研究 者 欲罢不能 ,但 他 们 又 无 法 得 出 清晰 的 结论 。 实 验 的 结果 并 不 足以 支持 
他 们 得 出 结论 。 

直到 某 天 他 们 将 数据 视图 化 之 后 ,其 研究 才 出 现 了 转机 。 通 过 图 表 , 肉 眼 立 刻 发 现 其 
中 存在 的 预测 模型 。 请 看 图 7-7 中 焦虑 指数 和 标 普 500 指数 的 走势 对 照 。 

这 两 条 线 呈 犬 牙 状 交错 ,由 此 产生 了 诸多 的 菱形 方 格 。 这 些 萎 形 方 格 之 所 以 会 出 现 ， 
是 因为 当 一 条 线 上 升 时 , 另 一 条 线 会 下 降 , 两 者 仿佛 互 成 镜像 。 这 种 对 立 构成 了 两 者 关系 
可 预测 性 的 重要 依据 ,原因 有 以 下 两 方面 。 
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(1) 用 虚线 表示 的 焦虑 指数 与 标 普 500 指数 呈 反 相关 关系 。“ 焦 虑 程度 越 高 ,对 市 场 
的 负面 影响 越 大 。” 

(2) 在 此 图 像 中 ,用 虚线 表示 的 焦虑 指数 是 以 两 天 为 单位 的 ,因此 其 走势 是 在 对 应 的 
标 普 500 指数 走势 的 两 天 之 前 ,由 此 可 预见 市 场 的 走势 。 这 是 可 预测 的 。 

通过 移动 这 些 重复 部 分 的 时 间 轴 ,再 通过 调整 设置 , 埃 里 克 和 卡 里 可 用 视图 化 的 方式 
查看 其 他 时 间 段 是 否 存在 相似 的 萎 形 方 格 , 这 些 方 格 中 就 有 可 能 蕴含 着 预测 模型 。 如 
图 7-7 所 示 , 上 面 的 菱形 方 格 并 不 完全 规范 ,但 两 条 线 所 呈现 的 反 相 关 关 系 依然 存在 ,这 
就 为 预测 提供 了 基础 。 


2008 年 8 月 1 日 2008 年 9 月 30 日 


图 7-7 焦虑 指数 与 标 普 500 指数 的 走势 对 照 
注 : 焦虑 指数 (虚线 ) 和 标 普 500 指数 走势 ( 实 线 ) 交 错 产生 了 诸多 的 萎 形 
空间 。 焦 虑 指数 大 概 落后 两 天 。 


调整 这 些 萎 形 方 格 的 关键 是 对 情感 形成 正确 解读 。 尤 其 需要 指出 的 是 ,情感 强度 都 
是 相对 的 。 正 是 情感 强度 的 变化 让 我 们 发 现 了 其 中 的 规律 。 焦 虑 指数 并 不 是 指 焦虑 水 平 
的 绝对 值 , 而 是 从 第 一 天 到 第 二 天 的 整体 焦虑 变化 程度 。 当 博 主 们 的 焦虑 情绪 增多 时 ,该 
指数 就 会 上 涨 ; 当 博 主 们 的 焦虑 情绪 减少 时 ,该 指数 就 会 下 跌 。 焦 虑 指数 是 从 含 焦虑 情绪 
和 不 含 焦虑 情绪 的 博客 中 获取 的 。 

计算 焦虑 指数 指 的 是 “引发 焦虑 ”的 运算 ,但 这 种 运算 相对 简单 , 即 选 定 同一 批文 章 ， 
观测 其 在 第 一 天 中 表现 出 的 焦虑 情绪 和 在 第 二 天 中 表现 出 的 焦虑 情绪 。 


7.4.2 验证 情感 和 被 验证 的 情感 


尽管 直观 图 形 让 人 们 进一步 理解 了 这 种 假设 关系 ,但 它 并 不 能 证 明 这 种 假设 是 成 立 
的 。 接 下 来 , 埃 里 克 和 卡 里 要 ”正式 测试 焦 虚 、 慌 惧 和 担忧 …… 与 股市 之 间 的 关系 ”。 他 们 
计算 了 2008 年 174 个 交易 日 的 焦虑 指数 并 查看 了 这 段 时 间 LiveJournal 网 站 上 超过 
2000 万 篇 博客 ,然后 将 每 日 的 博客 所 表现 出 的 情绪 与 当天 的 标 普 500 指数 进行 对 照 。 然 
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后 ,他 们 用 诺 贝尔 经 济 学 奖 获得 者 克 莱 夫 “。 格 兰 杰 研 发 的 模型 进行 预测 关系 统计 测试 。 

结果 证 明 ,这 一 假设 是 正确 的 ! 其 研究 表明 ,通过 公众 情绪 可 预测 股市 走势 (图 7-8) 。 
埃 里 克 和 卡 里 极其 兴奋 ,立刻 将 此 发 现 写成 了 论文 ,提交 给 某 大 会 :“ 焦 虑 情绪 的 增 
加 ……- 预示 着 标 普 500 指数 的 下 降 。” 

统计 测试 发 现 .焦虑 指数 “具有 与 股市 相关 的 
新 型 预测 信息 ”。 这 说 明 , 焦 虑 指数 具有 创新 性 、 
独创 性 和 预测 性 ,该 指数 更 能 预测 股价 的 走势 而 
不 是 去 分 析 股 市 变动 的 原因 。 此 外 ,该 指数 还 能 
帮助 人 们 通过 近期 市 场 活动 来 预测 未 来 市 场 走 

“ 势 ,由 此 也 进一步 证 明了 该 指数 的 创新 性 。 
图 7-8 情感 与 股市 行情 这 不 是 预测 标 普 500 指数 的 具体 涨 跌 , 而 是 预 
测 其 变动 的 速率 (是 加 速 上 涨 还 是 加 速 下 跌 )。 对 
此 ,研究 人 员 指 出 ,焦虑 可 让 股价 减 组 上涨, 却 可 让 其 加 速 下 跌 。 这 种 加 速 关 系 体现 在 
图 7-7 萎 形 方 格 的 实 线 上 。 

这 个 发 现 具有 开创 性 的 意义 ,因为 人 们 第 一 次 确立 了 大 众 情绪 与 经 济 之 间 的 关系 。 
事实 上 ,其 创新 意义 远 超 于 此 ,这 是 在 集体 情感 状态 与 可 测量 行动 之 间 建 立 了 科学 关系 ， 
是 历史 上 人 们 首次 从 随机 自发 的 人 类 行为 中 总 结 出 可 测量 的 大 众 情感 指标 , 它 使 这 一 领 
域 的 研究 跨 出 了 实验 室 的 门槛 而 走 入 了 现实 世界 。 

情绪 是 会 下 金 蛋 的 多 ,大 众 情绪 的 波动 影响 着 股市 的 走势 ,但 股市 却 无 法 影响 大 众 情 
绪 。 在 这 里 ,并 不 存在 “ 鸡 生 和 蛋 、 蛋 生 鸡 ”的 繁复 关系 。 当 埃 里 克 和 卡 里 试 着 通过 股市 表现 
来 判断 大 众 情绪 时 ,他 们 发 现 ,这 种 反 向 的 对 应 关系 并 不 成 立 。 他 们 完全 找 不 着 规律 。 或 
许 经 济 活动 只 是 影响 大 众 情绪 的 诸多 因素 之 一 .而 大 众 情绪 却 能 在 很 大 程度 上 决定 经 济 
活动 。 它 们 之 间 只 存在 单 向 关系 。 


7.4.3 情绪 指标 影响 金融 市 场 


埃 里 克 和 卡 里 发 现 ,最 关心 他 们 研究 成 果 的 并 不 是 学 术 圈 的 同行 ,而 是 那些 正在 对 冲 
基金 0 工作 或 准备 创立 对 冲 基 金 的 人 。 股 市 交易 
员 对 此 发 现 垂 泛 三 尺 , 有 些 人 其 至 开始 在 他 们 的 
研究 基础 上 构建 和 拓展 交易 系统 。 

越 来 越 多 的 人 意识 到 ,必须 要 掌握 博客 等 互联 
网 文本 中 所 隐 含 的 情绪 和 动机 .对 于 投资 决策 者 而 
言 ,这 与 传统 的 经 济 指标 几乎 同样 重要 (图 7-9)。 
小 型 新 锐 投资 公司 AlphaGenius 的 首席 执行 官 
兰 迪 . 萨 夫 曾 在 2012 年 旧金山 文本 分 析 世 界 大 
会 上 表示 :“ 我 们 将 “情绪 ? 视 为 一 种 资产 ,与 外 图 7-9 情绪 影响 股市 


四 ”对 冲 基金 : 采用 对 冲 交 易手 段 的 基金 ,也 称 避 险 基金 或 套 期 保值 基金 。 是 指 金融 期 货 和 金融 期 权 等 金融 衍 
生 工 具 与 金融 工具 结合 后 以 盈利 为 目的 的 金融 基金 。 它 是 投资 基金 的 一 种 形式 , 意 为 “风险 对 冲 过 的 基金 ”。 
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国 市 场 、 债 券 和 黄金 市 场 类 似 .” 他 说 ,自己 的 公司 “每 天 都 在 关注 数 以 千 计 的 推 特 发 言 和 
互联 网 评论 ,来 发 现 某 证 券 品 种 是 否 出 现 了 买 和 或 卖 出 信号 。 如 果 这 些 信号 显示 某 证 券 价 
格 波动 超过 了 合理 区 间 , 那 么 我 们 就 会 马上 交易 ”。 男 一 家 对 冲 基 金 公司 “ 德 温 特 资 本 市 场 ” 
则 公开 了 所 有 依据 公众 情绪 进行 投资 的 举措 ,荷兰 公司 SNTMNT( 听 上 去 就 是 “情绪 ”) 则 为 
所 有 人 提供 了 基于 推 特 上 的 公众 情绪 来 进行 交易 的 API( 应 用 程序 界面 )。“ 现 在 ,许多 聪明 
人 士 开始 悄悄 利用 新 闻 和 推 特 上 表露 出 的 情绪 做 交易 .金融 交易 和 预测 分 析 专 家 本 恩 。 吉 
本 特 在 一 封 电邮 中 这 样 写 道 。 

实际 上 ,现实 生活 中 并 没有 公开 的 充分 证 据 表明 ,通过 情绪 就 能 精准 预测 市 场 并 大 发 
其 财 。 焦 虑 指数 的 预测 性 在 2008 年 得 到 了 验证 ,但 2008 年 正 是 金融 危机 深化 、 经 济 状况 
恶化 的 特殊 年 份 。 因 此 ,在 其 他 年 份 , 博 客 上 可 能 不 会 出 现 那 么 多 关于 经 济 的 、 表 现 出 某 
种 情绪 的 文章 。 关 于 对 冲 基金 通过 把 握 大 众 情绪 取得 成 功 的 故事 ,我 们 虽然 常 有 耳闻 ,但 
这 些 故 事 往往 都 语 看 不详。 

在 埃 里 克 和 卡 里 之 后 ,许多 研究 都 宣称 能 精准 预测 市 场 走势 ,但 这 些 论断 都 有 待 科学 
验证 和 观察 。 而 且 , 这 一 模式 也 不 见得 会 持续 下 去 。 正 如 某 投 资 公司 在 谈 到 风险 时 经 常 
说 的 ,“ 过 去 的 投资 表现 并 不 是 对 未 来 收益 的 担保 ”, 因 此 我 们 从 来 不 能 完全 保证 历史 模式 

金融 界 似乎 一 直 都 在 绞 尽 脑汁 地 寻找 赚钱 良 方 ,因此 任何 包含 预测 性 信息 的 创新 源 
泉 都 不 会 逃 过 其 法 眼 。“ 人 情绪 数 据 ” 的 非凡 之 处 决定 了 其 应 用 价值 空间 。 只 有 当 指 标 具 有 
预测 性 ,并 且 不 在 既 有 的 数据 来 源 内 , 它 才 能 改善 预测 效果 。 这 样 的 优势 足以 带 来 上 百 万 
美元 的 收益 。 

焦虑 指数 预示 着 不 可 遏制 的 潮流 : 性 质 不 同 的 各 类 数据 ,其 数量 在 不 断 膨胀 ,而 各 组 
织 机 构 正 努力 创新 ,从 中 汲取 精华 。 正 如 其 他 数据 来 源 一 样 , 要 想 充 分 利用 其 预测 功能 ， 
那么 情绪 指标 也 必须 配合 其 他 来 源 的 数据 使 用 。 预 测 分 析 就 仿佛 是 一 个 面包 ,所 有 的 原 
材料 都 必须 经 过 充分 "搅拌 ?后 才能 改善 决策 。 要 想 实现 这 一 目标 ,必须 应 对 最 核心 的 科 
学 挑战 : 将 各 种 数据 流 有 序 地 结合 起 来 ,以 此 改善 决策 。 


【延伸 阅读 】 
英国 脱 欧 : 精 英 主 义 的 历史 性 溃败 


导语 : 英国 脱 欧 冲击 波 震 动 世 界 , 对 于 世界 上 绝 大 多 数 人 ,这 个 结果 是 意料 之 外 的 。 
没有 多 少 人 会 想到 ,一 个 打破 现 有 世界 秩序 的 大 事 就 这 么 发 生 了 。 而 其 中 对 此 事 最 感到 
震惊 的 , 当 属 精英 阶层 ,英国 人 就 不 必 说 了 ,就 连 在 美国 的 (纽约 时 报 ), 其 知名 的 精英 读者 
群体 ,留言 也 是 一 片 衰 喷 。 不 少 人 相信 ,这 次 投票 的 意义 将 会 非常 深远 ,人 们 正在 见证 一 
次 历史 的 拐点 。 没 错 ,英国 脱 欧 ,有 可 能 是 精英 主义 走向 历史 性 溃败 的 拐点 。 

(1) 精英 人 士 未 能 说 服 平民 大 众 , 平 民 大 众 脱 欧 的 热情 ,也 胜 过 了 精英 人 士 留 欧 的 热 
情 , 这 就 是 为 什么 金融 市 场 和 博彩 公司 都 看 走 眼 了 。 

(2) 精英 主义 的 溃败 ,在 很 大 程度 上 是 自 找 的 ,解决 问题 需要 非常 深刻 的 反思 。 
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复 盘 : 看 一 眼 投票 地 图 .就 明白 为 何 英国 脱 欧 是 精英 主义 的 失败 


英国 脱 欧 有 多 让 人 意外 ? 博彩 市 场 的 动静 最 能 说 明 问题 。 在 公投 结果 变 得 清晰 前 的 
5 个 小 时 , 即 刚 开票 左右 的 时 候 , 博 彩 公司 开 出 的 赔 率 还 显示 “ 留 欧 派 ” 有 高 达 96% 的 可 能 
性 赢得 公投 , 几 个 小 时 后 ,下 注 留 欧 的 人 赔 得 精光 。 人 金融 市 场 的 剧烈 动荡 同样 也 反映 了 脱 
欧 多 么 违背 了 市 场 人 士 的 预期 , 当 脱 欧 消息 变 得 明朗 之 后 ,英镑 瞬间 暴跌 9% 至 数 十 年 来 
的 历史 低位 ,真是 一 个 超级 炸弹 。 

毫 无 疑问 ,不 管 是 伦敦 的 金融 操盘手 还 是 股市 的 庄家 ,都 属于 精英 阶层 ,他 们 本 身 的 
意愿 大 多 数 都 是 倾向 于 留 欧 。 但 涉及 钱 的 事 可 不 会 简单 感情 用 事 , 只 能 说 他 们 潜意识 里 
的 乐观 倾向 让 他 们 误 判 了 ,只 要 看 两 幅 选 举 地 图 ,就 能 明白 精英 阶层 所 在 的 留 欧 派 为 何 会 
输 得 这 么 惨 。 

图 7-10 反映 了 各 个 选区 的 投票 结果 。 截 取 的 地 图 排除 了 支持 留 欧 的 苏格兰 和 北 爱 
尔 兰 地 区 ,反映 的 是 英国 南部 的 公投 情况 , 越 是 深 色 的 地 区 脱离 欧盟 的 愿望 越 强烈 。 地 图 
反映 的 信息 非常 明显 一 一 在 英国 南部 , 绝 大 部 分 地 区 都 愿意 脱 欧 , 留 欧 派 集中 在 少数 几 个 
大 城市 ,伦敦 .有 曼彻斯特、 利物浦 ,加 的 夫 , 这 些 都 是 精英 阶层 的 聚集 地 。 特 别 是 伦敦 的 核 
心 区 ,人 们 尤其 不 愿 脱离 欧盟 ,同样 还 包括 高 等 学 府 所 在 的 牛津 地 区 。 
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图 7-10 英国 脱 欧 公投 选举 地 图 局 部 
(颜色 越 深 越 支持 脱 欧 ) 


图 7-11 反映 了 不 同 选区 的 投票 率 , 颜 色 越 深 的 地 区 投票 率 越 高 , 越 浅 投 票 率 越 低 , 几 


个 红 圈 所 在 的 位 置 就 是 前 一 幅 图 里 的 几 个 大 城市 。 这 个 图 说 明 的 信息 也 很 明显 
方 的 投票 意愿 , 比 精英 所 在 的 大 城市 强烈 。 

这 两 张 图 很 能 够 说 明 为 什么 留 欧 派 输 了 一 一 粗略 地 形容 就 是 ,精英 人 士 未 能 说 服 平 
民 大 众 , 平 民 大 众 脱 欧 的 热情 ,也 胜 过 了 精英 人 士 留 欧 的 热情 。 这 两 张 图 也 能 解释 为 何 金 
融 市 场 和 博彩 市 场 都 输 了 ,因为 市 场 人 士 基本 都 是 伦敦 人 ,只 看 得 到 伦敦 情况 的 话 , 谁 都 
会 以 为 脱 欧 只 是 个 玩笑 。 

然而 玩笑 成 真 了 , 当 卡 梅 伦 在 演说 中 声称 公投 结果 反映 了 英国 人 的 意志 时 , 恶 怕 心 里 


小 地 


矿 数 所 导论 


7-11 英国 脱 欧 公投 各 地 的 投票 率 
( 越 深 投票 率 越 高 , 圈 中 所 在 是 英国 的 主要 城市 ) 


非常 苦涩 一 一 这 结果 不 是 大 多 数 伦敦 人 的 意志 ,不 是 大 多 数 精 英 人 士 的 意志 。 要 知道 , 民 
意 调查 显示 ,有 835%% 的 英国 科学 家 反对 脱 欧 ;英国 经 济 学 家 中 .有 90 听 认为 脱 欧 会 损害 英 
国 经 济 ,多 数 也 都 抱 着 反对 脱 欧 的 观点 。 


这 次 公投 也 是 代 议 制 民主 这 种 精英 主义 体制 的 失败 


英国 公投 让 世人 震惊 的 结果 ,也 引发 了 关于 公投 这 种 民主 形式 的 讨论 。 问 题 非常 明 
显 : 英国 的 两 个 主要 政党 ,保守 党 和 工党 一 一 两 党 在 2015 年 大 选中 合计 占据 了 英国 下 议 
院 650 席 中 的 563 席 一 一 都 没有 把 脱 欧 作为 政党 纲领 ,结果 在 脱 欧 这 个 单一 问题 上 , 留 欧 
派 输 掉 了 公投 。 那 么 ,到底 是 公投 制度 有 问题 还 是 大 选 制度 有 问题 ? 

很 多 政治 学 者 指出 ,公投 这 种 直接 民主 形式 存在 很 多 二 端 ,这 是 事实 。 西 方 政治 制度 
的 精 散 是 代 议 制 民主 , 即 人 们 选 出 自己 信任 的 代表 ,组 成 政府 和 国会 ,让 他 们 来 对 各 个 事 
项 做 出 决策 。 一 般 认 为 代 议 制 民主 是 精英 主义 与 民主 结合 的 典范 ,然而 为 什么 这 种 制度 
在 脱 欧 这 样 的 重大 问题 上 却 反映 不 了 多 数 民众 的 意志 ? 英国 前 首相 托尼 。 布 菜 尔 在 公投 
结果 出 来 后 ,意味 深长 地 说 一 一 “在 这 一 天 ,人 民 成 了 政府 ”。 

这 次 英国 公投 反映 出 的 巨大 制度 矛盾 ,并 不 是 问题 首次 浮现 。 拿 美国 来 说 ,美国 国会 
在 民 调 中 满意 度 长 期 在 10 中 上 下 徘徊 ,多 达 80% 美 国人 都 持 不 满意 的 态度 ( 见 图 7-12)， 
但 在 历次 国会 选举 中 ,依然 都 是 差不多 的 人 当选 。 换 和 句 话 说 ,美国 现在 的 选举 无 法 选 出 让 
民众 满意 的 代表 ,议会 的 决策 也 往往 跟 民意 完全 不 符 。 美 国 这 次 大 选 推出 的 两 个 候选 人 
特 朗 普 和 希拉 里 ,都 是 被 讨厌 胜 过 被 欢迎 , 却 依然 成 为 了 理所当然 的 候选 人 。 不 少 人 相 
信 , 一 旦 美国 人 有 机 会 在 单一 问题 上 公投 ,他 们 会 做 出 与 精英 人 士 相 反 的 选择 。 

那么 把 一 切 事务 都 交 给 公投 ? 害处 也 是 显而易见 的 , 绝 大 多 数 人 对 国家 大 事 的 考虑 并 
不 深远 ,着眼 点 往往 只 在 自身 ,许多 人 也 许 只 有 在 英国 脱离 欧盟 后 , 才 真 正 意识 到 离开 意味 
着 多 么 艰难 ,而 这 种 艰难 是 在 公投 之 前 就 被 宣传 了 无 数 次 ,然而 在 真正 遇 上 之 前 很 有 可 能 是 
无 法 体会 到 的 。 也 许 很 多 英国 人 现在 就 感到 后 悔 了 , 脱 欧 消 息 出 来 后 ,很 多 全 球 性 的 精英 科 
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图 7-12 ”美国 国会 民 调 满意 度 长 期 只 有 一 成 多 些 ,不 满意 度 长 期 高 达 近 八成 
(数据 来 自 RealClearPolitics) 


技 公司 都 在 考虑 要 不 要 继续 在 伦敦 设置 欧洲 总 部 ,一 些 著 名 银行 则 表示 要 把 雇员 迁 到 巴黎 。 
这 些 事实 明显 严重 损害 了 英国 的 国家 实力 ,甚至 损害 了 未 来 , 投 脱 欧 票 的 人 真 的 都 了 解 这 些 
事实 吗 ? 了 解 事实 代表 的 意义 吗 ? 也 许 他 们 会 后 悔 ,甚至 感到 害怕 。 民 意 大 反 转 近 些 年 就 
有 过 例子 ,例如 马英九 ,2012 年 连任 时 还 高 票 当选 ,结果 当选 后 两 个 月 民 望 就 断崖 式 下 跌 ， 
就 任 仪式 时 民众 满意 度 才 20% ,再 过 几 月 只 剩 下 10% 左 右 ,那么 当初 为 何 要 选 他 ? 

英国 脱 欧 ,这 是 代 议 制 民主 这 种 精英 主义 体制 的 一 次 标志 性 溃败 ,陷入 了 困境 ,而 又 
找 不 到 替代 方案 。 


精英 主义 的 失败 ,很 大 程度 上 是 自 找 的 


按 诺 贝尔 经 济 学 奖 得 主 、 著 名 评论 家 克 鲁 格 曼 的 说 法 , 留 在 欧盟 与 脱离 欧盟 相 比 ,是 
一 个 “ 坏 ” 与 “更 坏 ” 之 间 的 选择 。 布 鲁 塞 尔 在 英国 人 心中 的 形象 ,是 一 架 充 满 陈腐 气息 的 
官 傣 机 器 ,不 断 剥 前 英国 人 , 却 又 解决 不 了 任何 现实 问题 ,比如 最 为 关键 的 移民 问题 ,在 经 
济 问 题 上 表现 也 不 好 , 欧 债 危 机 让 多 国 陷 入 泥潭 .英国 人 一 直 在 庆幸 没有 加 入 欧元 区 。 

是 的 ,如 果 布 鲁 塞 尔 的 精英 能 够 带领 欧洲 这 架 老 答 车 快速 前 进 , 解 决 该 解决 的 问题 ， 
那 一 切 都 不 在 话 下 。 但 当 这 架 老区 车 跑 不 起 来 的 时 候 , 精 英 们 就 要 被 各 种 怀疑 和 指责 了 ， 
英国 人 对 伦敦 的 精英 也 是 同样 的 态度 。 而 且 , 民 众 大 多 数 更 关心 与 自己 切身 利益 有 关 的 
问题 ,至 于 欧盟 作为 一 个 了 不 起 的 组 织 为 人 权 、 环 境 保 护 、 气 候 变化 做 出 了 多 少 了 不 起 的 
贡献 。 对 不 起 ,英国 乡下 的 选民 们 很 难 有 切身 体会 。 

往 更 深 了 说 ,民粹 主义 之 所 以 在 欧洲 变 得 盛行 .也 与 精英 阶层 未 能 解决 贫 富 分 化 问题 
有 极 大 的 关系 。 不 仅 在 英国 ,在 法 国 、 德 国 .荷兰 都 有 这 样 的 问题 ,更 不 用 说 相对 欠 发 达 的 
东欧 国家 。 

种 种 因素 之 下 ,精英 阶层 与 普通 大 众 变 得 越 来 越 世 离 ,如 同 布 菜 尔 所 说 必 我 们 的 政治 
中 框 已 经 失去 了 说 服 民 众 以 及 与 民众 建立 纽带 的 能 力 , 已 经 不 是 民众 期 望 的 代表 。” 

英国 前 首相 托尼 。 布 菜 尔 在 脱 欧 结果 出 来 后 在 纽约 时 报 撰 文 , 认 为 现在 西方 的 政治 
制度 运行 出 了 大 问题 。 
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英国 前 首相 托尼 。 布 菜 尔 在 脱 欧 结果 出 来 后 在 纽约 时 报 撰文 ,认为 现在 西方 的 政治 
制度 运行 出 了 大 问题 。 


英国 脱 欧 后 的 下 一 波 , 会 是 特 朗 普 冲 击 吗 ? 


英国 脱 欧 ,可 能 是 全 球 化 .区域 一 体 化 趋势 中 最 大 的 一 次 倒退 ,没有 哪个 国家 有 过 类 
似 的 经 历 , 也 没 人 预料 得 到 英国 脱 欧 冲 击 波 到 底 有 多 深远 。 人 们 可 能 要 花 上 许多 年 才能 
对 此 做 出 一 个 相对 客观 的 评价 。 有 论 者 鼓吹 这 是 “回归 自治 多边 协作 、 百 年 争 流 ”, 认 为 
即便 英国 退 欧 也 无 损 今 后 与 欧盟 经 贸 往 来 的 自由 度 , 这 丽 怕 是 不 对 ,告别 欧盟 的 移民 政 
策 , 也 相当 于 告别 欧盟 统一 监管 制度 .承认 别 国标 准 、 禁 止 人 为 政府 援助 和 消除 非 关 税 壁 
笃 等 等 系列 规则 。 想 要 重新 拥抱 欧盟 这 个 单一 市 场 ,是 需要 付出 巨大 代价 的 。 而 前 面 提 
到 的 科技 和 金融 实力 受 损 ,更 可 能 会 对 英国 形成 非常 深远 的 打击 。 

但 万 幸 的 是 ,英国 即便 脱 欧 , 也 不 会 是 极 左 或 极 右 势 力 上 人 台 。 投 脱 欧 票 的 人 ,可 以 把 
这 视 为 国家 的 一 次 “重新 自我 发 现 ”, 视 为 大 英 荣光 与 骄傲 的 恢复 。 虽 然 这 有 些 自欺欺人 
的 意味 ,但 总 比 极端 主义 上 台 要 好 多 了 。 卡 梅 伦 的 大 热 继任 人 选 , 鲍 里 斯 。 约翰 进 ,虽然 
性 格 古怪 ,但 却 是 一 个 货真价实 的 英国 绅士 , 退 欧 之 后 的 英国 如 果 由 他 领导 ,不 会 封闭 起 
与 世界 联系 的 大 门 。 

其 他 欧洲 国家 就 不 一 样 了 ,有 很 多 极端 主义 正在 努力 获取 政权 ,如 法 国 国 民 阵 线 的 领 
导 人 勒 席 。 这 些 极 端 主义 如 果 获 取 政 权 , 很 有 可 能 会 意味 全 球 化 一体 化 的 全 面倒 退 ,其 
至 欧盟 解体 都 不 是 不 可 能 。 这 也 同时 表示 人 类 通过 交流 与 合作 取得 的 许多 重大 文明 成 
果 ,面临 着 挑战 。 

特 归 普 若 当选 ,可 能 是 比 英国 脱 欧 更 大 的 一 场 冲 击 。 

而 今年 11 月 ,全 球 人 们 可 能 要 见证 一 次 比 英国 脱 欧 更 大 的 冲击 : 特 朗 普 当 选美 国 总 
统 。 这 位 完全 不 按 常理 出 牌 、 靠 民粹 主义 上 位 的 房地产 商人 ,如 果真 的 当 上 美国 这 艘 船 的 
船长 ,世界 会 怎样 ? 这 真是 一 个 天 大 的 问号 。 

2016 ,也 许 这 个 世界 正在 见证 历史 。 


结语 


面 对 英国 脱 欧 的 冲击 波 ,忧心 刷 促 的 布 菜 尔 给 了 全 世界 一 个 建议 : 中 间 派 必须 恢复 
自己 在 政治 上 的 吸引 力 , 重 新 找到 分 析 和 解决 世界 面临 的 问题 的 能 力 , 这 些 问 题 正 引发 着 
世人 的 怒火。 如 果 做 不 到 ,欧洲 将 会 变 成 各 种 极端 思潮 的 实验 场 一 -这 些 轻率 的 行为 不 
是 毁灭 自己 ,就 是 让 世界 变 得 更 加 分 裂 。 

资料 来 源 : 丁 阳 ,腾讯 评论 -今日 话题 ,第 3567 期 2016-6-25 


【实验 与 思考 】 
大 数据 准备 度 自 我 评分 表 
1. 实验 目的 
(1) 熟悉 大 数据 预测 分 析 的 基本 概念 和 主要 内 容 ; 
(2) 通过 DELTTA 模式 下 的 企业 大 数据 准备 度 自我 评分 ,了解 企业 开展 大 数据 应 用 
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与 分 析 所 需要 做 的 准备 工作 。 
2. 工具 /准备 工作 


在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 。 


3. 实验 内 容 与 步骤 


所 谓 DELTTA 模式 , 即 通过 数据 (Data) .企业 (Enterprise)、 领 导 团 队 (Leadership) 、 
目标 (Target) ,技术 (Technology)、 分 析 (Analysis) 这 样 一 些 元 素 分 析 , 来 判断 组 织 在 内 
部 建立 数据 分 析 的 能 力 。 

《大 数据 准备 度 自我 评分 表 ) 可 用 于 判断 企业 (组 织 、 机 构 ) 是 否 做 好 了 实施 大 数据 计 
划 的 准备 。 它 根据 DELTTA 模式 ,每 个 因子 有 5 个 问题 ,每 个 问题 的 回答 都 分 成 5 个 等 
级 , 即 非常 不 同意 、 有 些 不 同意 、 普 通 、 有 些 同意 和 非常 同意 。 

除非 有 什么 原因 需要 特别 看 重 某 些 问题 或 领域 ,否则 直接 计算 每 项 因子 的 平均 得 分 ， 
以 求 出 该 因子 的 得 分 。 也 可 以 再 把 各 因子 的 得 分 再 结合 起 来 , 求 出 准备 度 的 总 得 分 。 

用 于 评估 大 数据 准备 度 的 问题 集 适用 于 全 公司 或 特定 事业 单位 ,应 该 由 熟悉 全 公司 
或 该 部 门 如 何 面 对 大 数据 的 人 ,来 回答 这 些 问题 。 

请 记录 (或 假设 ) 你 所 服务 的 企业 的 基本 情况 。 

企业 名 称 : 

主要 业务 : 

企业 规模 : 口 大 型 企业 口中 型 企业 口 小 型 企业 

请 在 表 7-1 中 为 你 所 在 企业 开展 大 数据 应 用 进行 自我 评分 ,并 从 中 体会 开展 大 数据 
应 用 与 分 析 需 要 做 的 必要 准备 。 


表 7-1 大 数据 准备 度 自我 评分 表 


分 析 测评 结果 
评价 指标 非常 | 有 些 R 有 些 | 非常 | 备注 
同意 | 同意 | 普通 | 不 同意 | 不 同意 
资料 
1 | 我 们 能 取得 极 庞大 的 未 结构 化 或 快速 变 
动 的 数据 供 分 析 之 用 


我 们 会 把 来 自 多 个 内 部 来 源 的 数据 , 结 
合 到 数据 仓库 或 数据 超市 ,以 利 取 用 
我 们 会 整合 内 外 部 数据 ,借以 对 事业 环 
境 做 有 价值 的 分 析 

我 们 对 于 所 分 析 的 数据 会 维持 一 致 的 定 
义 与 标准 

使 用 者 .决策 者 ,以 及 产品 开发 人 员 ,都 
信任 我 们 数据 的 品质 


~ 


a 


厂 数 揭 导论 


续 表 
分 析 测评 结果 
评价 指标 非常 | 有 些 有 些 | 非常 | 备注 
同意 | 同意 | 普通 | 不 同意 | 不 同意 
企 业 
6 | 我 们 会 运用 结合 了 大 数据 与 传统 数据 分 
析 的 手法 实现 组 织 目标 


我 们 组 织 的 管理 团队 可 确保 事业 单位 与 
部 门 携手 合作 ,为 组 织 决定 大 数据 及 数 
据 分 析 的 有 限 顺 序 


我 们 会 安排 一 个 让 数据 科学 家 与 数据 分 
析 专 家 能 够 在 组 织 内 学 习 与 分 享 能 力 的 
环境 


我 们 的 大 数据 及 数据 分 析 活 动 与 基础 架 
构 ,将 有 充足 资金 及 其 他 资源 的 支持 ,用 
于 打造 我 们 需要 的 技能 


10 


我 们 会 与 网 络 同伴 、 顾 客 及 事业 生态 系 
统 中 的 其 他 成 员 合作 ,共享 大 数据 内 容 
与 应 用 


领导 团队 


a 


我 们 的 高 层 主管 会 定期 思考 大 数据 与 数 
据 分 析 可 能 为 公司 带 来 的 机 会 


12 


我 们 的 高 层 主管 会 要 求 事业 单位 与 部 门 
领导 者 ,在 决策 与 事业 流程 中 运用 大 数 
据 与 数据 分 析 


13 


我 们 的 高 层 主管 会 利用 大 数据 与 数据 分 
析 引 导 策略 性 与 战略 性 决策 


14 


组 织 中 基层 管理 者 会 利用 大 数据 与 数据 
分 析 引 导 决 策 


15 


我 们 的 高 层 管理 者 会 指导 与 审核 建 置 大 
数据 资产 (数据 、 人 才 、 软 硬件 ) 的 优先 次 
序 及 建 置 过 程 


目 标 


16 


我 们 的 大 数据 活动 会 优先 用 来 掌握 有 助 
于 与 竞争 对 手 差异 化 、 潜 在 价值 高 的 


机 会 


17 


我 们 认为 ,运用 大 数据 发 展 新 产品 与 新 
服务 业 是 一 种 创新 程序 


18 


我 们 会 评估 流程 .策略 与 市 场 ,以 找 出 在 
公司 内 部 运用 大 数据 与 数据 分 析 的 机 会 
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评价 指标 


第 了 7 这 大 数 电 罗列 分 听 


分 析 测 评 结果 


续 表 


非常 
同意 


些 
同意 


普通 


非常 | 备 
不 同意 


注 


19 


我 们 经 常 实施 数据 驱动 的 实验 ,以 收集 
事业 中 哪些 部 分 运作 得 顺利 ,哪些 部 分 
运作 得 不 顺利 的 数据 


20 


我 们 会 在 数据 分 析 与 数据 的 辅助 下 评价 
现 有 决策 ,以 评估 为 结构 化 的 新 数据 是 
否 能 提供 更 好 的 模式 


技 术 


21 


我 们 已 探索 并 行 运算 方法 (如 Hadoop)， 
或 已 用 它 来 处 理 大 数据 


22 


我 们 善于 在 说 明 事 业 议 题 或 决策 时 使 用 
数据 可 视 化 手段 


23 


我 们 已 探索 过 以 云端 服务 处 理 数据 或 进 
行 数据 分 析 ,或 是 已 实际 这 么 做 


24 


我 们 已 探索 过 用 开源 软件 处 理 大 数据 与 
数据 分 析 ,或 是 已 实际 这 么 做 


25 


我 们 已 探索 过 用 于 处 理 未 结构 化 数据 
(或 文字 ,视频 或 图 片 ) 的 工具 ,或 是 已 实 
际 采用 


数据 分 析 人 员 与 数据 科学 家 


26 


我 们 有 足够 的 数据 科学 家 与 数据 分 析 专 
家 等 人 才 ,帮助 实现 数据 分 析 的 目标 


27 


我 们 的 数据 科学 家 与 数据 分 析 专家 ,在 
关键 决策 与 数据 驱动 的 创新 上 提供 的 意 
见 , 受 到 高 层 管理 者 的 信任 


28 


我 们 的 数据 科学 家 与 数据 分 析 专家 ,能 
了 解 大 数据 与 数据 分 析 要 应 用 在 哪些 事 
业 范 畴 与 程序 上 


29 


我 们 的 数据 科学 家 、 量 化 分 析 师 与 数据 
管理 专家 ,能 有 效 地 以 团队 合作 方式 发 
展 大 数据 与 数据 分 析 计 划 


30 


公司 内 部 对 员工 设 有 培养 数据 科学 与 数 
据 分 析 技 能 的 课程 (无 论 是 内 部 课程 还 
是 与 外 面 的 组 织 合作 开设 ) 


态 社 


说 明 :“ 非 常 同意 ”5 分 ,“ 有 些 同意 ”4 分 ,“ 普 通 "3 分 ,以 此 类 推 。 全 表 满 分 为 150 分 ,你 的 测评 总 分 为 : 
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分 。 


攻 


4. 实验 总 结 


5. 实验 评价 (教师 ) 


大 数据 促进 学 习 


【导读 案例 】 
适应 性 学 习 体 系 


Netflix? 可 以 预测 出 人 们 想 看 什么 电影 ,亚马逊 能 识别 出 人 们 接 下 来 想 买 什么 书 。 
有 了 大 数据 分 析 , 新 的 在 线 教育 平台 就 能 预测 出 学 生 们 对 什么 样 的 教育 模式 反映 更 好 ,从 
而 帮助 学 生 回 到 正确 的 轨道 ,不 让 他 们 中 途 退 学 。 

经 济 合作 与 发 展 组 织 (OECD) 是 由 三 十 多 个 市 场 经 济 国 家 组 成 的 政府 间 国 际 经 济 组 
织 , 旨 在 共同 应 对 全 球 化 带 来 的 经 济 、 社 会 和 政府 治理 等 方面 的 挑战 ,并 把 握 全 球 化 带 来 
的 机 遇 。 在 经 济 合 作 与 发 展 组 织 的 成 员 国 中 ,美国 大 学 的 辍学 率 是 最 高 的 ,其 中 只 有 
46% 的 大 学 生 能 取得 学 位 。2009 年 ,在 一 项 针对 34 个 成 员 国 的 调查 中 ,美国 的 阅读 排名 
第 14, 科 学 排名 第 17, 数 学 排名 第 25。 许 多 学 生 退 学 的 理由 是 教育 花费 太 高 。 皮 尤 研 究 
中 心 的 一 项 研究 表明 ,与 公立 学 校 45% 的 辍学 率 相 比 ,在 私立 的 受 利 性 学 校 中 ,78% 的 学 
生 经 过 6 年 的 学 习 后 仍 毕 不 了 业 。 

在 18 一 34 岁 没有 大 学 学 历 的 人 中 ,48% 的 人 称 他 们 只 是 因为 交 不 起 学 费 。 而 取得 学 
历 的 人 中 有 86% 的 人 称 ,大 学 对 于 他 们 个 人 而 言 是 一 次 很 好 的 投资 。 

该 数据 告诉 我 们 , 待 在 学 校 是 有 好 处 的 。 可 它 同时 也 告诉 我 们 ,完成 学 业 并 非 易 事 。 
《数据 驱动 : 改进 授课 的 实际 指南 ) 一 书 的 作者 班 布 里 克 。 桑 托 约 向 我 们 展示 ,数据 驱动 
大 有 用 处 。 

班 布 里 克 。 桑 托 约 在 学 校 工作 的 8 年 里 ,学 校 在 学 生成 就 方面 取得 了 很 大 成 绩 , 在 各 
种 状态 评估 和 年 级 水 平 测试 中 达到 了 90% 的 过 关 率 。 数 据 驱动 法 能 帮助 人 们 更 有 效 地 
教学 。 与 此 同时 ,那些 平衡 数据 的 科技 则 可 以 在 学 生 的 日 常 学 习 和 生活 中 发 挥 作用 。 

计算 机 如 何 帮助 学 生 们 更 有 效 地 学 习 呢 ? 不 论 是 个 体 还 是 群体 ,在 线 学 习 系 统 都 能 
评估 学 生 过 去 的 学 习习 惯 ,. 并 且 通 过 评估 所 得 的 数据 来 预测 他 们 将 来 的 学 习习 惯 。 在 一 
节 给 定 的 课程 或 是 一 个 课件 框架 中 ,适应 性 学 习 体 系 能 确定 接 下 来 该 教 给 学 生 什么 内 容 ， 
或 者 判定 学 生 哪 些 地 方 还 没有 完全 明白 。 它 还 能 让 学 生 们 亲眼 看 到 ,他 们 在 学 习 这 些 内 


@ Netflix 是 一 家 在 线 影片 租赁 提供 商 。 公 司 能 够 提供 Netflix 超大 数量 的 DVD, 能 让 顾客 快速 方便 地 挑选 影 
片 ,同时 免费 递送 。 顾 客 可 以 通过 PC.TV 及 iPad iPhone 收看 电影 .电视 节目 。2016 年 ,Netflix 正 计 划 在 中 国 推出 
流 媒 体 视 频 服务 ,与 中 国 监管 部 门 的 谈判 已 取得 进展 - 
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容 时 是 如 何 进步 的 ,或 是 他 们 对 这 些 内 容 掌 握 了 多 少 。 

适应 性 学 习 体 系 的 优点 之 一 是 其 内 部 的 反馈 环 。 该 体系 以 学 生 的 互动 和 表现 为 基 
础 ,对 学 生 、 教 师 和 该 体系 本 身 提供 反馈 ,于 是 用 户 或 是 该 体系 本 身 就 可 以 利用 这 种 反馈 ， 
来 优化 用 以 帮助 学 生 们 的 预测 公式 。 最 终 , 学 生 、 教 师 和 适应 性 学 习 体 系 就 能 进一步 见证 
他 们 的 进步 。 此 外 ,软件 也 能 在 一 节 给 定 的 课程 中 预测 出 学 生 需 要 什么 样 的 帮助 。 在 线 
课件 可 以 评估 诸如 注册 频率 和 做 家 庭 作 业 的 及 时 性 等 因素 ,以 此 预测 学 生 们 能 否 完成 学 
业 。 如 此 ,这 样 的 软件 还 能 向 课程 导师 发 出 警报 ,方便 他 们 及 时 向 害怕 完 不 成 学 业 的 学 生 
伸 出 援手 ,给 予 他 们 额外 的 帮助 和 鼓励 。 

在 线 教育 服务 Knewton 是 最 著名 的 适应 性 学 习 体 系 之 一 。 该 体系 由 世界 领先 的 终 
身 教育 服务 商 之 一 一 一 卡 普兰 (Kaplan) 一 一 的 前 总 经 理 创立 , 它 注 重 区 分 个 体 学 生 的 优 
缺点 。 该 公司 一 开始 只 提供 GMATG 的 测试 准备 ,如 今 被 用 来 改进 大 学 教育 。 作 为 拥有 
72000 名 学 生 的 美国 最 大 的 公立 大 学 ,亚利桑那 州立 大 学 (图 8-1) 运 用 Knewton 体系 来 
提高 学 生 的 数学 水 平 。 该 体系 在 2000 名 学 生 中 使 用 了 两 学 期 以 后 ,亚利桑那 州立 大 学 的 
辍学 率 下 降 了 56% ,而 毕业 率 也 从 64% 升 高 到 了 75%。 目 前 ,该 公司 筹资 5400 万 美元 
作为 风险 投资 ,同时 世界 经 济 论坛 将 Knewton 提名 为 科技 先锋 。 而 Dreambox 是 另 一 家 
适应 性 学 习 体 系 的 提供 者 , 它 旨 在 提高 小 学 生 的 数学 演算 水 平 。 为 帮助 提高 数学 水 平 ,该 
公司 提供 了 大 约 720 节 课 程 。 


图 8-1 亚利桑那 州立 大 学 


从 更 广泛 的 层面 上 讲 , 数 据 挖 气 能 为 学 生 们 推荐 课程 ,并 且 帮 助 大 学 生 们 判定 他 们 是 
否 偏离 了 自己 所 选 专业 的 轨道 。 亚 利 桑 那州 立 大 学 运用 正 顾问 系统 来 辅导 大 学 生 , 该 学 


四 ”GMAT( 研 究 生 管理 科学 人 学 考试 ) , 它 是 一 种 标准 化 考试 ,已 经 被 广泛 地 用 作 工 商 管理 硕士 的 人 学 考试 ,是 
当前 最 为 可 靠 的 测试 考生 是 否 具备 顺利 完成 工商 管理 硕士 项 目 学 习 能 力 的 考试 项 目 , 专 门 帮助 各 商学 院 或 工商 管理 
硕士 项 目 评估 申请 人 是 否 具备 在 工商 管理 方面 继续 深造 学 习 的 资格 。 美 国 . 英 国 、 澳 大 利 亚 等 国家 的 高 校 都 采用 
GMAT 考试 的 成 绩 来 评估 申请 人 学 者 是 否 适 合 于 在 商业 、 经 济 和 管理 等 专业 的 研究 生 阶 段 学 习 , 以 决定 是 否 录取 。 
中 欧 和 东欧 ,GMAT 是 衡量 学 生 分 析 写 作 能 力 的 一 个 重要 评判 标准 。 在 那里 ,考生 的 数学 部 分 的 分 数 都 非常 高 ,而 语 
言 和 分 析 写 作 部 分 成 绩 好 的 话 则 表明 :你 是 一 个 少 有 的 杰出 考生 。 
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校 的 学 生 保持 率 从 77 中 上 升 到 84 中 ,这 项 改革 是 教务 长 伊丽莎白 。 卡 帕 尔 迪 为 下 顾问 系 
统 所 做 出 的 贡献 。 

不 管 学生 们 是 没有 完成 主要 课程 ,还 是 一 开始 就 没有 报名 ,下 顾问 系统 都 可 以 追踪 
到 。 为 了 提供 最 恰当 的 课程 建议 ,他 们 还 将 指定 学 生 的 有 关 数 据 同 收集 来 的 其 他 数 千 名 
学 生 的 数据 做 了 比较 。 这 种 日 渐 增 加 的 透明 性 从 学 生 之 间 扩 展 到 了 教师 之 间 , 再 到 学 校 
的 管理 者 之 间 。 学 生 们 对 自身 的 进步 有 了 更 多 的 了 解 ,教师 们 对 个 别 学 生 的 进步 和 全 班 
同学 的 进步 也 看 在 眼 里 ,管理 者 们 也 从 整个 学 校 的 角度 看 到 了 什么 有 用 、 什 么 没有 用 。 于 
是 ,管理 领导 们 也 就 能 总 结 出 什么 样 的 教育 计划 、 软 件 和 方法 是 最 有 效 的 ,并 相应 调整 总 
课程 。 

阅读 上 文 ,请 思考 、 分 析 并 简单 记录 

(1) 在 你 的 大 学 同学 中 有 人 辍学 吗 ? 你 认为 这 个 (或 者 几 个 ) 辍 学 同学 辍学 的 主要 原 
因 是 什么 ? 

答 : 


(2) 阅读 上 文 , 你 认为 在 大 数据 背景 下 建立 的 适应 性 学 习 体 系 有 可 能 帮助 学 生 回 到 
正确 的 学 习 轨 道上 ,从 而 减少 辍学 吗 ? 
答 ， 


(3) 在 大 数据 时 代 , 学 生 应 该 做 些 什么 来 提高 自己 的 学 习 效 率 , 有 效 地 完成 自己 的 
学 业 ? 
答 : 


(4) 请 简单 描述 你 所 知道 的 上 一 周 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
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大 数据 在 教育 中 有 意义 的 作用 之 一 是 ,适应 性 学 习 体 系 能 在 诸多 学 生 中 测试 出 一 些 
不 同 的 教育 方法 。 许 多 网 站 运用 A/B 测试 法 给 不 同 的 浏览 者 看 不 同 的 网 页 版 本 ,学 习 系 
统 也 能 做 到 这 一 点 。 学 习 系 统 能 判断 学 生 们 在 进行 了 大 量 的 解决 问题 的 练习 后 ,是 否 能 
学 得 更 快 。 学 习 系 统 还 能 判断 ,经 过 一 段 时 期 后 学 生 们 还 能 记 住 多 少 知识 ,并 将 其 与 之 前 
的 学 习 方 法 联系 起 来 。 


8.1.1 典型 的 网 络 教 育 形式 


大 数据 和 教育 的 结合 一 直 在 关注 着 “学 生 是 如 何 学 习 的 ”这 个 问题 。 新 兴 公 司 将 教学 
资料 放 到 了 网 上 ,让 更 多 人 能 接收 到 这 些 资料 。 可 汗 学 院 (Khan Academy, 由 孟加拉 北美 
国人 萨 尔 曼 。 可 汗 创立 的 一 家 教育 性 非 一 利 组 织 , 旨 在 利用 网 络 视频 进行 免费 授课 ) 是 一 
家 拥有 数 千 个 教育 录像 的 在 线 教育 组 织 。 如 今 ,该 网 站 已 拥有 包括 历史 、 医 学 、 财 经 、 生 
物 、. 计 算 机 科学 等 不 同 科目 的 讲义 共 三 千 六 百 余 件 。 该 网 站 的 录像 被 放 到 YouTube? 
上 ,有 超过 2. 02 亿 的 浏览 量 。 该 网 站 的 学 习 方 法 简单 而 有 效 。 除 了 数 千 个 视频 短片 外 ， 
该 网 站 还 使 用 了 上 千 种 练习 ,来 帮助 传授 观念 和 评估 每 位 学 生 的 理解 水 平 。 

Codecademy 是 一 家 专门 教授 人 们 设计 软件 程序 的 新 兴 组 织 。 它 不 像 可 汗 学 院 那 样 
依赖 视频 ,而 是 注重 互动 练习 。 该 网 站 以 班组 的 形式 ,比如 Java 描述 语言 组 和 网 页 原理 
组 ,将 一 系列 课程 聚集 在 一 起 ,让 学 习 者 学 到 不 同 的 程序 语言 。 至 此 ,要 想 设计 和 销售 苹 
果 手 机 应 用 程序 还 非常 遥远 ,但 该 网 站 提供 了 一 个 非常 好 的 平台 。 可 以 想象 ,这 些 网 站 上 
的 视频 可 以 培养 数据 科学 家 ,或 者 教授 人 们 如 何 使 用 数据 分 析 软 件 。 

一 些 重点 大 学 也 将 它们 的 课程 放 到 了 网 上 。 哈 佛 大 学 与 麻 省 理工 学 院 联 手 开 创 了 
edX 数字 教育 平台 (图 8-2) , 它 是 一 个 非 盘 利 性 组 织 ,以 专 设 的 在 线 学 习 为 特色 ,目的 是 建 
立 世 界 顶 尖 高 校 相 联合 的 共享 教育 平台 ,提高 教学 质量 ,推广 网 络 在 线 教育 。 目 前 平台 已 
经 拥有 超过 九 十 万 的 注册 者 。 该 组 织 的 座右铭 是 :“ 将 来 的 在 线 教育 : 任何 人 、 任 何 地 
点 ,任何 时 间 。” 平 台 运 营 之 初 ,就 有 6 个 大 学 加 入 了 该 组 织 ,与 麻 省 理工 学 院 和 哈佛 大 学 
一 道 ,还 有 加 州 大 学 伯克利 分 校 德 克 萨 斯 大 学 、 韦 尔 斯 利 大 学 和 乔治 城 大 学 。 此 后 新 增 
的 学 校 中 ,包括 清华 ,北大 、 香 港大 学 、 香 港 科技 大 学 日 本 京都 大 学 和 韩国 首尔 大 学 等 6 
所 亚洲 名 牌 高 校 。 

大 学 教师 在 上 课 的 时 候 , 会 使 用 简短 的 演讲 视频 ,布置 一 些 作业 ,并 进行 一 系列 测试 
和 考试 。 除 了 能 使 这 些 大 学 通过 电子 形式 传递 课程 内 容 外 ,edX 还 提供 了 一 个 学 生 们 交 
流 学 习 方 法 的 平台 。 它 通过 分 析 学 生 的 习惯 ,判定 出 哪 一 门 课程 学 生 学 得 最 好 。《 麻 省 理 
工科 技 评论 ) 将 edX 提供 的 科技 称 为 近 两 百年 来 最 重要 的 教育 科技 。 


四 YouTube 是 世界 上 最 大 的 视频 网 站 ,早期 公司 总 部 位 于 加 利 福 尼 亚 州 的 圣 布鲁诺 。 公 司 于 2005 年 2 月 15 
日 由 华裔 (中 国 台湾 ) 美 籍 华人 陈 士 骏 等 人 创立 。2006 年 11 月 ,Google 公司 以 16. 5 亿美 元 收购 了 YouTube, 并 把 其 
当 作 一 间 子 公司 来 经 营 。 现 在 YouTube 有 超过 10 亿 用 户 。 
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IT = "sD QBerkeley 
图 8-2 edX 大 规模 开放 在 线 课堂 平台 


8.1.2 未 来 的 教育 : 线 上 线 下 结合 


就 像 在 大 数据 的 其 他 应 用 领域 一 样 ,所 谓 的 改变 并 不 是 指 大 数据 从 无 到 有 ,而 是 指 它 
的 规模 和 价格 发 生 了 变化 。 其 力量 所 在 ,是 它 不 仅 能 收集 和 分 析 更 多 的 数据 ,还 能 让 更 多 
的 人 以 更 低 的 价格 接触 到 那些 数据 。 

如 《 麻 省 理工 科技 评论 ?所 说 ,在 线 学 习 已 经 不 足 为 奇 。 在 美国 ,已 经 有 710 万 学 生 使 
用 远程 学 习 。 不 同 的 是 新 产品 的 运作 规模 以 及 传送 这 些 产 品 的 技术 和 低 价 甚至 免费 的 传 
送 模式 。 诸 如 edX 一 样 免费 或 低 价 的 教育 课程 被 称 作 是 大 规模 的 网 络 公 开课 程 
(Massive Open Online Courses,MOOC , 幕 课 ) 。 

2002 年 ,大 约 9.6% 的 大 学 生 参 加 了 至 少 一 门 在 线 课 程 。 根 据 巴 布 森 学 院 调研 组 的 
一 项 调研 ,截至 2010 年 ,人 数 已 经 上 升 到 31. 3%。 也 就 是 说 ,每 一 年 就 有 6. 1 亿 名 大 学 
生 参 加 了 至 少 一 门 在 线 课程 。 

Coursera( 图 8-3) 是 由 斯 坦 福 大 学 的 计算 机 科学 教授 们 创立 的 另 一 家 公司 。 最 初 加 
入 的 有 斯 坦 福 大 学 .普林斯顿 大 学 和 密歇根 大 学 以 及 宾夕法尼亚 大 学 ,此 后 又 有 一 些 知 名 
大 学 加 入 , 它 拥 有 150 万 门 课程 和 6108 万 名 注册 学 员 。 

与 此 同时 ,以 * 你 的 学 院 ? 为 宣传 语 的 uDemy 公司 将 各 大 首席 执行 官 、. 畅 销 作 家 和 常 
青 茧 联盟 教授 的 指导 荟萃 在 一 起 。 该 网 站 采取 了 相对 不 那么 学 术 性 的 方法 , 它 的 许多 课 
程 都 是 关于 实际 的 商业 化 问题 ,比如 如 何 筹集 风险 资本 。 与 其 他 网 站 不 同 ,uDemy 允许 
课程 的 创建 者 免费 提供 他 们 的 课程 ,也 允许 创建 者 对 其 收费 。 

由 谷歌 副 总 裁 和 斯 坦 福 大 学 教授 塞 巴 斯 蒂 安 . 特 伦 成 立 的 Udacity 公司 ,其 目的 在 
于 使 教育 民主 化 。Udacity 网 站 于 2012 年 2 月 推出 ,主要 从 事 线 上 学 习 , 公 司 最 初 的 课程 
主要 集中 在 计算 机 科学 及 其 相关 领域 上 。 截 至 目前 ,Udacity 推出 的 课堂 涵盖 计算 机 科 
学 数学、 物理 学 ,统计 学 、 心 理学 等 。 

现 有 的 学 术 机 构 都 在 想方设法 与 网 络 世 界 拉 上 关系 ,很 显然 ,此 类 课程 的 激增 ,为 我 
们 寻求 最 有 效 的 方法 来 传递 教育 内 容 提 供 了 真知 灼 见 。 虽 然 不 能 在 网 上 取得 哈佛 、 麻 省 
理工 或 者 斯 坦 福 的 学 位 ,可 学 习 它 们 的 课程 却 变 得 越 来 越 容易 。 当 然 ,在 线 课程 不 能 提供 


153 


大 数 扎 导论 


教室 和 实验 室 所 能 提供 的 社会 或 物理 经 验 。 生物、 化 学 和 医学 需要 动手 实验 。 社 会 的 鼓 
励 和 认可 对 于 运动 和 节食 来 说 非常 重要 ,同样 ,它们 对 于 学 习 也 很 重要 。 将 来 最 具 希 望 的 
教育 体系 很 可 能 就 是 将 最 好 的 线 上 和 线 下 环境 相 结合 的 体系 。 


Coursera couRsEs ABOUTY LoGIN 


The World's Best Courses. 
Online, for Free. 


Sign Up N 
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Fomtory and Science Feren ntermet History, Technelegy，。。 quantum Mechanics end 


图 8-3 Coursera 


8.1.3 跟踪 教学 效果 


每 一 年 ,美国 政府 及 其 地 方 政府 在 内 ,要 花费 8200 亿美 元 在 教育 体系 上 ,而 这 还 不 包 
括 对 私营 机 构 的 全 部 投资 。 然 而 , 据 布 鲁 金 斯 协会 的 达 雷 尔 。 志 斯 特 所 说 ， 这 并 不 表示 和 
理 者 们 希望 亲眼 看 到 学 校 系统 是 如 何 运作 的 ,因为 新 的 系统 已 经 提供 了 这 种 可 见 性 。 
应 性 学 习 体 系 的 提供 者 Dreambox 同样 为 管理 者 们 提供 了 可 视 性 。 除 了 传 所 竹 半 
工具 外 , 它 还 具有 仪表 盘 的 作用 ,可 统计 数据 , 供 管理 者 们 查阅 。 因 此 ,管理 者 们 就 能 追踪 
学 生 们 的 进程 ,并 且 掌 握 达到 水 平 的 学 生 所 占 的 百分比 。 

从 政府 层面 上 看 ,国家 运用 不 同 的 体系 来 汇报 教育 进程 。 在 密 吹 根 州 提供 的 仪表 级 

见 诸如 三 年 级 的 阅读 能 力 、 大 学 准备 和 三 年 级 到 八 年 级 的 学 术 水 平等 领域 ,不 管 它 
的 教育 水 平 如 何 , 是 提高 还 是 下 降 , 还 是 原 地 踏步 ,该 网 站 上 都 有 显示 。 比 如 ,美国 拥有 三 
年 级 阅读 能 力 的 学 生 从 2007 一 2008 年 的 63.1% 上 升 到 2011 一 2012 年 的 67.7%。 据 网 
站 显示 ,这 种 趋势 强烈 预示 着 未 来 学 术 的 成 功 。 据 韦 斯 特 所 说 ,这 种 体系 提高 了 可 信和 度 ， 
同时 提供 了 更 多 对 于 教育 情况 的 可 见 性 。 仪 表盘 上 的 大 多 数 数据 是 已 经 存在 的 ,可 是 , 拥 
有 用 户 界 面 和 可 视 地 图 的 、 基 于 网 站 的 系统 ,与 以 往 相 比 往 前 迈 出 了 一 大 步 , 它 使 得 人 们 
更 容易 接触 到 这 些 数据 。 

此 外 ,数据 挖掘 、 数 据 分 析 、 适 应 性 学 习 方案 以 及 网 页 仪表 盘 都 为 提高 教育 水 平 创造 
了 机 会 。 然 而 韦 斯 特 称 ,最 大 的 挑战 是 对 “教育 投入 ,而 非 教育 产 出 ”的 关注 。 学 校 往往 对 
师 生 比 例 、 图 书馆 规模 和 资金 开销 进行 测量 ,而 相对 忽视 了 最 终结 果 。“ 教 育 机 构 不 仅 要 
判断 什么 样 的 资源 可 靠 , 还 要 判断 这 些 资源 是 否 能 传递 有 效 的 教育 。" 韦 斯 特 说 。 

就 大 数据 而 言 教育 面临 着 与 其 他 领域 一 样 的 挑战 。 不 兼容 的 教育 体系 使 得 各 学 校 
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难以 统计 校内 的 数据 ,更 别 说 与 不 同 的 学 术 机 构 进行 对 比 了 。 因 此 ,一 些 学校 会 用 独立 的 
体系 来 追踪 学 术 情 况 。 


8.1.4 形成 学 习 能 力 


数据 不 仅 使 计算 机 变 得 更 聪明 ,还 让 人 类 变 得 更 聪明 。 可 就 教育 和 大 数据 而 言 , 最 大 
的 问题 也 是 教育 本 身 最 根本 的 问题 就 是 : 我 们 怎样 学 习 ? 不 同 的 人 使 用 不 同 的 学 习 方 
法 。 一 些 学 生 擅长 视觉 学 习 , 另 一 些 学 生 擅长 动手 学 习 。 在 20 世纪 ,心理 学 家 们 花费 了 
大 半 个 世纪 来 构建 关于 人 们 怎样 学 习 的 理论 ,可 都 没有 取得 大 的 进展 。 

大 约 十 年 前 ,科学 家 们 开始 尝试 不 同 的 方法 。 他 们 用 神经 学 和 认 知 心理 学 来 研究 大 
脑 是 如 何 学 习 的 ,而 不 是 去 构建 理论 。 最 终 他 们 发 现 , 人 们 学 习 能 力 的 形成 ,大 部 分 并 不 
取决 于 别人 教授 的 东西 ,而 是 我 们 自己 在 学 习 过 程 中 的 有 效 学 习 。 有 效 的 学 习 进 程 会 促 
进 更 加 有 效 的 学 习 。 

要 了 解 人 们 是 怎么 学 习 的 ,关键 之 一 就 是 要 认识 到 ,对 于 人 们 通过 不 同 的 感官 收集 来 
的 巨大 数据 ,大 脑 处 理 起 来 也 是 非常 有 限 的 。 因 此 ,为 了 避免 陷 人 泥沼 ,也 就 是 众所周知 
的 认 知 超 负荷 ,大 脑 会 依靠 各 种 捷径 。 为 了 更 加 有 效 地 学 习 , 教 师 们 可 以 不 用 提供 太 多 的 
信息 ,或 是 采取 谨慎 的 方法 进行 信息 交流 。 因 为 如 果 声 音 少 一 些 , 人 们 也 就 很 容易 投入 到 
获取 的 信息 中 。 可 是 ,声音 少 了 ,也 就 意味 着 获取 的 内 容 少 了 。 因 此 ,大 脑 使 用 的 捷径 之 
一 就 是 将 事物 组 合 在 一 起 。 老 师 们 为 了 更 加 有 效 地 教学 而 将 资料 组 合 在 一 起 ,因此 学 生 
们 就 没有 必要 做 无 用 功 。 男 一 个 减轻 认 知 超 负 荷 的 捷径 就 是 ,将 每 一 个 不 必要 的 单词 或 
每 一 幅 不 必要 的 图 片 放 到 一 定 的 学 习 目 标 中 。 挑 战 大 脑 对 学 习 有 好 处 : 调查 者 们 发 现 ， 
人 们 在 第 一 次 阅读 一 本 书 时 比 再 读 同一 本 书 的 时 候 学 到 的 东西 多 。 

当然 ,这 一 切 都 还 没有 回答 “人 们 是 怎样 学 习 的 "这 个 问题 。 要 处 理 接收 到 的 大 量 信 
息 , 大 脑 要 经 过 很 多 道 过 滤 。 大 脑 已 经 运行 了 很 多 年 , 它 要 做 的 第 一 件 事 就 是 学 会 处 理 基 
本 的 生存 问题 。 如 果 我 们 的 祖先 能 够 记 住 危 险 的 情形 ,比如 错误 的 捕食 ,并 且 避 免 类 似 情 
况 再 发 生 ,或 许 他 们 的 生存 希望 更 大 。 此 类 情形 通常 发 生 在 情绪 高 涨 的 时 候 。 因 此 ,人 们 
很 容易 记 住 情绪 高 涨 时 接收 到 的 信息 ,不 管 是 积极 情绪 ,还 是 消极 情绪 。 

此 外 ,以 往 的 经 验 也 会 影响 信息 的 保存 。 科 学 家 们 认为 ,人 们 的 大 脑 以 一 种 归档 的 方 
法 储存 信息 。 因 此 , 往 已 知 的 区 域 中 添加 信息 才 变 得 更 加 容易 。 
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如 果 孤 零 零 地 给 你 一 个 数据 ,例如 39 ,你 能 从 中 发 现 什么 呢 ? 一 般 不 会 有 太 多 发 现 。 
这 只 是 一 个 介 于 38 和 40 之 间 的 数 , 除 此 以 外 ,其 他 所 有 的 "发 现 ? 都 只 能 是 推测 与 猜想 。 
接着 ,再 给 你 多 一 点 儿 的 信息 : 39 度 。 这 个 数据 表示 的 可 能 是 角度 或 者 是 温度 。 然 后 ， 
再 添加 一 个 具体 信息 : 39 摄氏 度 。 这 显然 是 温度 ,而 且 是 比较 高 的 温度 。 最 后 ,再 告诉 
你 这 是 某 个 人 的 口腔 温度 读数 。 于 是 ,你 知道 这 个 人 的 体温 超过 了 39 摄氏 度 ,说 明 他 生 
病 了 。 

在 结束 这 个 简短 的 思维 演练 之 后 ,IBM 的 研究 员 萨 姆 * 亚当 斯 说 :“ 每 增加 一 点 儿 信 


大 数据 号 这 


息 ,你 对 数据 的 理解 就 会 发 生 显著 的 变化 。 "亚当 斯 说 这 些 话 的 目的 是 向 人 们 介绍 数据 在 
具体 语 境 中 的 作用 。 数 据 越 多 ,传递 的 信息 就 越 具体 ,最 终 形成 知识 。 各 种 各 样 的 新 数据 
大 量 涌现 ,有 利于 人 们 理解 数据 。 但 是 ,亚当 斯 认为 ,只 有 “把 所 有 点 连 起 来 ”, 形 成 有 价值 
的 灵感 或 发 现 , 才 是 真正 的 成 果 。 


8.2.1 什么 是 人 工 智 能 


人 工 智能 (Artificial Intelligence,AI, 图 8-4) 是 研究 、 开 发 用 于 模拟 、 延 伸 和 扩展 人 的 
智能 的 理论 方法 .技术 及 应 用 系统 的 一 门 新 的 技术 科学 ,是 计算 机 科学 的 一 个 分 支 , 它 企 
图 了 解 智能 的 实质 ,并 生产 出 一 种 新 的 能 以 人 类 智能 相似 的 方式 做 出 反应 的 智能 机 器 。 
该 领域 的 研究 包括 机 器 学 习 、 机 器 人 .语言 识 别 、 图 像 识 别 .自然 语言 处 理 .专家 系统 、 经 济 
政治 决策 .控制 系统 和 仿真 系统 等 。 


图 8-4 人 工 智 能 


人 工 智 能 的 定义 可 以 分 为 两 部 分 , 即 "“ 人工” 和 ”智能 ".“ 人 工 系统 ”就 是 通常 意义 下 
的 人 工 系统 .。“ 智 能 ?涉及 其 他 诸如 意识 (Consciousness) 自我 (Self)` 思维 (Mind)( 包 括 
无 意识 的 思维 ,Unconscious_mind) 等 问题 。 

著名 的 斯 坦 福 大 学 人 工 智能 研究 中 心 尼 尔 逊 教授 对 人 工 智 能 下 了 这 样 一 个 定义 : 
“人 工 智 能 是 关于 知识 的 学 科 一 一 怎样 表示 知识 以 及 怎样 获得 知识 并 使 用 知识 的 科学 。” 
而 麻 省 理工 学 院 的 温 斯 顿 教授 认为 :“ 人 工 智能 就 是 研究 如 何 使 计算 机 去 做 过 去 只 有 人 
才能 做 的 智能 工作 ,” 这 些 说 法 反映 了 人 工 智 能 学 科 的 基本 思想 和 基本 内 容 。 即 人 工 智能 
是 研究 人 类 智能 活动 的 规律 ,构造 具有 一 定 智能 的 人 工 系 统 , 研 究 如 何 让 计算 机 去 完成 以 
往 需 要 人 的 智力 才能 胜任 的 工作 ,也 就 是 研究 如 何 应 用 计算 机 的 软 硬 件 来 模拟 人 类 某 些 
智能 行为 的 基本 理论 、 方 法 和 技术 。 

谷歌 的 知识 图 谱 ( 图 8-5) 技 术 可 以 在 语 境 中 的 相关 信息 之 间 建 立 联系 。 例 如 ,搜索 
“ 列 奥 纳 多 ， 达 ， 芬 奇 "。 我 们 在 计算 机 屏幕 的 左 侧 可 以 看 到 一 些 标准 的 蓝 色 链接 ,指向 
跟 这 位 意大利 文艺 复兴 时 期 的 艺术 家 与 科学 家 有 关 的 网 络 文 章 及 网 站 。 而 计算 机 屏幕 右 
侧 则 显示 知识 图 谱 的 处 理 结果 : 达 ，。 芬 奇 的 几 张 照片 .下面 还 有 关于 他 的 一 段 简短 文字 
介绍 ,包括 生 卒 时 间 与 地 点 ,以 及 《 蒙 娜 丽 莎 》《 最 后 的 晚餐 ) 等 主要 画作 的 小 图 片 。 其 他 
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公司 也 正在 开发 自己 的 文本 关联 或 知识 软件 ,其 中 最 著名 的 当 属 苹果 的 Siri 语音 助手 与 
微软 的 有 问 必 应 。 此 外 ,一 些 大 学 也 在 这 个 领域 有 研究 项 目 。 


图 8-5 Google 知识 图 谱 


我 们 头脑 中 的 “知识 ”“ 意 义 ”“ 了 解 "等 概念 并 不 真正 适用 于 知识 图 谱 的 工作 原理 。 
人 们 之 所 以 能 了 解 某 些 事物 ,在 很 大 程度 上 是 得 益 于 他 们 在 现实 世界 中 获得 的 经 验 ,而 计 
算 机 不 具备 这 个 有 利 条 件 。 人 工 智能 的 发 展 意味 着 计算 机 的 看 、 读 、 听 和 说 等 能 力 正在 不 
断 增 强 , 不 过 ,计算 机 开展 这 些 活动 的 方式 与 人 类 大 不 相同 。 

几 十 年 前 ,人 工 智能 研究 的 主要 关注 点 是 制定 知识 规则 与 知识 关系 ,建立 所 谓 的 专家 
系统 。 但 是 事实 证 明 ,建立 这 些 专家 系统 的 难度 特别 大 。 因 此 ,人 们 放弃 了 构建 知识 系 
统 , 转 而 采用 数据 驱动 的 研究 路 线 : 基于 统计 概率 与 统计 规律 挖掘 大 量 数据 并 制定 决策 。 
有 了 数据 提供 的 动力 ,人 工 智 能 在 完成 自然 语言 处 理 (例如 ,谷歌 搜索 与 沃 森 问 答 系 统 背 
后 的 主要 技术 ) 等 任务 时 表现 出 了 “不 可 思议 的 强大 作用 ”*。 但 是 ,如 果 采 用 单纯 数据 驱动 
的 方法 ,是 不 可 能 形成 准确 又 全 面 的 理解 的 。 人 们 过 于 信任 数据 驱动 的 方法 ,以 至 于 他 们 
认为 仅 赁 相关 性 就 可 以 解决 所 有 问题 。 

正如 我 们 看 到 的 那样 ,对 于 大 量 商 业 决 策 而 言 ,有 相关 性 就 能 得 出 令 人 满意 的 结果 。 
商业 战略 与 政策 制定 等 决策 领域 面临 更 大 的 风险 , 仅 赁 相关 性 是 绝对 不 够 的 。 未 来 的 人 
工 智能 除了 会 数据 分 析 以 外 ,还 要 对 因果 关系 产生 有 启发 性 的 认识 ,包括 理论 假设、 现实 
世界 的 心理 模型 .事情 的 原委 等 ,两 者 必须 更 密切 地 相互 配合 。 技 术 进 步 使 共生 关系 的 实 
用 性 日 益 增 强 。 


8.2.2 什么 是 机 器 学 习 


学 习 能 力 是 智能 行为 的 一 个 非常 重要 的 特征 。H. A. Simon 认为 ,学 习 是 系统 所 做 
的 适应 性 变化 ,使 得 系统 在 下 一 次 完成 同样 或 类 似 的 任务 时 更 为 有 效 。R. S. Michalski 
认为 ,学 习 是 构造 或 修改 对 于 所 经 历 事物 的 表示 。 从 事 专家 系统 研制 的 人 们 则 认为 学 习 
是 知识 的 获取 。 这 些 观点 各 有 侧重 ,第 一 种 观点 强调 学 习 的 外 部 行为 效果 ,第 二 种 则 强调 
学 习 的 内 部 过 程 ,而 第 三 种 主要 是 从 知识 工程 的 实用 性 角度 出 发 的 。 
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机 器 学 习 (Machine Learning, ML, 图 8-6) 在 人 工 智 能 的 研究 中 具有 十 分 重要 的 地 
位 ,是 人 工 智能 研究 的 核心 之 一 。 它 的 应 用 已 遍及 人 工 智 能 的 各 个 分 支 ,如 专家 系统 、 自 
动 推理 、 自 然 语言 理解 .模式 识别 .计算 机 视觉 .智能 机 器 人 等 领域 。 其 中 尤其 典型 的 是 专 
家 系统 中 的 知识 获取 瓶颈 问题 ,人 们 一 直 在 努 
力 试图 采用 机 器 学 习 的 方法 加 以 克服 。 

一 个 不 具有 学 习 能 力 的 智能 系统 难以 称 
得 上 是 一 个 真正 的 智能 系统 ,但 是 以 往 的 智能 
系统 都 普遍 缺少 学 习 的 能 力 。 例 如 ,它们 遇 到 
错误 时 不 能 自我 校正 :不 会 通过 经 验 改 善 自 身 
的 性 能 ;不 会 自动 获取 和 发 现 所 需要 的 知识 。 
它们 的 推理 仅 限 于 演绎 而 缺少 归纳 ,因此 ,至 

图 8-6 ”机 器 学 习 多 只 能 够 证 明 已 存在 事实 、 定 理 ,而 不 能 发 现 

新 的 定理 、 定 律 和 规则 等 。 随 着 人 工 智能 的 深 

和 人 发展 ,这 些 局 限 性 表现 得 愈加 突出 。 正 是 在 这 种 情形 下 ,机 器 学 习 逐 渐 成 为 人 工 智 能 研 
究 的 核心 之 一 。 

机 器 学 习 的 研究 是 根据 生理 学 、 认 知 科学 等 对 人 类 学 习 机 理 的 了 解 ,建立 人 类 学 习 过 
程 的 计算 模型 或 认识 模型 ,发 展 各 种 学 习 理 论 和 学 习 方法 ,研究 通用 的 学 习 算 法 并 进行 理 
论 上 的 分 析 , 建 立 面向 任务 的 具有 特定 应 用 的 学 习 系 统 。 这 些 研究 目标 相互 影响 、 相 互 
促进 。 

学 习 是 人 类 具有 的 一 种 重要 智能 行为 ,但 究竟 什么 是 学 习 , 长 期 以 来 却 众说 纷 颖 。 社 
会 学 家 、 修 辑 学 家 和 心理 学 家 都 各 有 其 不 同 的 看 法 。 

比如 ,Langley(1996) 的 定义 :“ 机 器 学 习 是 一 门人 工 智能 的 科学 ,该 领域 的 主要 研究 
对 象 是 人 工 智能 ,特别 是 如 何在 经 验 学 习 中 改善 具体 算法 的 性 能 ”。 

Tom Mitchell 的 机 器 学 习 (1997) 对 信息 论 中 的 一 些 概念 有 详细 的 解释 ,其 中 提 到 : 
“机 器 学 习 是 对 能 通过 经 验 自动 改进 的 计算 机 算法 的 研究 ”。 

Alpaydin(2004) 提 出 自己 的 定义 :“ 机 器 学 习 是 用 数据 或 以 往 的 经 验 ,以 此 优化 计算 
机 程序 的 性 能 标准 。” 

顾名思义 ,机 器 学 习 是 研究 如 何 使 用 机 器 来 模拟 人 类 学 习 活 动 的 一 门 学 科 。 稍 为 严 
格 的 提 法 是 : 机 器 学 习 是 一 门 研究 机 器 获取 新 知识 和 新 技能 ,并 识别 现 有 知识 的 学 问 。 
这 里 所 说 的 “机 器 ”, 指 的 就 是 计算 机 、 电 子 计算 机 、 中 子 计算 机 、 光 子 计算 机 或 神经 计算 
机 等 。 

机 器 能 否 像 人 类 一 样 能 具有 学 习 能 力 呢 ?1959 年 ,美国 的 塞 缪 尔 (Samuel) 设 计 了 一 
个 下 棋 程 序 , 这 个 程序 具有 学 习 能 力 , 它 可 以 在 不 断 的 对 弈 中 改善 自己 的 棋艺 。4 年 后 ， 
这 个 程序 战胜 了 设计 者 本 人 。 又 过 了 三 年 ,这 个 程序 战胜 了 美国 一 个 保持 8 年 之 久 的 常 
胜 不 败 的 冠军 。 这 个 程序 向 人 们 展示 了 机 器 学 习 的 能 力 , 提 出 了 许多 令 人 深思 的 社会 问 
题 与 哲学 问题 。 

机 器 的 能 力 是 否 能 超过 人 的 ? 很 多 持 和 否定 意见 的 人 的 一 个 主要 论据 是 : 机 器 是 人 造 
的 ,其 性 能 和 动作 完全 是 由 设计 者 规定 的 ,因此 ,无 论 如 何其 能 力也 不 会 超过 设计 者 本 人 。 
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这 种 意见 对 不 具备 学 习 能 力 的 机 器 来 说 的 确 是 对 的 ,可 是 对 具备 学 习 能 力 的 机 器 就 值得 
考虑 了 ,因为 这 种 机 器 的 能 力 在 应 用 中 不 断 地 提高 .过 一 段 时 间 之 后 ,设计 者 本 人 也 不 知 
它 的 能 力 到 了 何 种 水 平 。 

机 器 学 习 的 发 展 进 入 新 阶段 的 重要 表现 在 下 列 几 个 方面 。 

(1) 机 器 学 习 已 成 为 新 的 边缘 学 科 并 在 高 校 建 立 课程 , 它 综合 应 用 心理 学 、 生 物 学 和 
神经 生理 学 以 及 数学 .自动 化 和 计算 机 科学 ,形成 机 器 学 习 理论 基础 。 

(2) 结合 各 种 学 习 方 法 ,取长补短 的 多 种 形式 的 集成 学 习 系统 研究 正在 兴起 。 特 别 
是 连接 学 习 符 号 ,学 习 的 耦合 可 以 更 好 地 解决 连续 性 信号 处 理 中 知识 与 技能 的 获取 与 求 
精 问题 ,而 受到 重视 。 

(3) 机 器 学 习 与 人 工 智 能 各 种 基础 问题 的 统一 性 观点 正在 形成 。 例 如 ,学 习 与 问题 
求解 结合 进行 知识 表达 便于 学 习 的 观点 产生 了 通用 智能 系统 SOAR 的 组 块 学 习 。 类 比 
学 习 与 问题 求解 结合 的 基于 案例 方法 已 成 为 经 验 学 习 的 重要 方向 。 

(4) 各 种 学 习 方法 的 应 用 范围 不 断 扩 大 ,一 部 分 已 形成 商品 。 归 纳 学 习 的 知识 获取 工 
具 已 在 诊断 分 类 型 专家 系统 中 广泛 使 用 。 连 接 学 习 在 声 图 文 识别 中 占 优势 ,分 析 学 习 已 用 
于 设计 综合 型 专家 系统 ,遗传 算法 与 强化 学 习 在 工程 控制 中 有 较 好 的 应 用 前 景 ,与 符号 系统 
耦合 的 神经 网 络 连接 学 习 将 在 企业 的 智能 管理 与 智能 机 器 人 运动 规划 中 发 挥 作 用 。 

(5) 与 机 器 学 习 有 关 的 学 术 活 动 空前 活跃 。 


8.2.3 基本 结构 


环境 向 系统 的 学 习 部 分 提供 某 些 信息 ,学 习 部 分 利用 这 些 信息 修改 知识 库 , 以 增进 系 
统 执行 部 分 完成 任务 的 效能 ,执行 部 分 根据 知识 库 完成 任务 ,同时 把 获得 的 信息 反馈 给 学 
习 部 分 。 在 具体 应 用 中 ,环境 、 知 识 库 和 执行 部 分 决定 了 机 器 学 习 的 工作 内 容 , 学 习 部 分 
所 需要 解决 的 问题 完全 由 这 三 部 分 确定 。 

(1) 影响 学 习 系统 设 计 的 最 重要 的 因素 是 环境 向 系统 提供 的 信息 ,或 者 更 具体 地 说 
是 信息 的 质量 。 知 识 库 里 存放 的 是 指导 执行 部 分 动作 的 一 般 原 则 ,但 环境 向 学 习 系 统 提 
供 的 信息 却 是 各 种 各 样 的 。 如 果 信 息 的 质量 比较 高 ,与 一 般 原则 的 差别 比较 小 , 则 学 习 部 
分 比较 容易 处 理 。 如 果 向 学 习 系 统 提供 的 是 杂乱 无 章 的 指导 执行 具体 动作 的 具体 信息 ， 
则 学 习 系 统 需 要 在 获得 足够 数据 之 后 ,删除 不 必要 的 细节 ,进行 总 结 推广 ,形成 指导 动作 
的 一 般 原则 , 放 入 知识 库 。 这 样 ,学 习 部 分 的 任务 就 比较 繁重 ,设计 起 来 也 较为 困难 。 

因为 学 习 系统 获得 的 信息 往往 是 不 完全 的 ,所 以 其 所 进行 的 推理 并 不 完全 是 可 靠 的 ， 
它 总 结 出 来 的 规则 可 能 正确 ,也 可 能 不 正确 。 这 要 通过 执行 效果 加 以 检验 。 正 确 的 规则 
能 使 系统 的 效能 提高 ,应 也 保留 ;不 正确 的 规则 应 予 修 改 或 从 数据 库 中 删除 。 

(2) 知识 库 是 影响 学 习 系 统 设计 的 第 二 个 因素 。 知 识 的 表示 有 多 种 形式 ,比如 特征 
向 量 一 阶 逻 辑 语句 、 产 生 式 规则 、 语 义 网 络 和 框架 等 。 这 些 表示 方式 各 有 其 特点 ,在 选择 
表示 方式 时 要 兼顾 以 下 4 个 方面 。 

中 表达 能 力 强 。 

G@ 易于 推理 。 

名 容易 修改 知识 库 。 


大 数据 号 稼 


@ 知识 表示 易于 扩展 。 

学 习 系统 不 能 在 全 然 没 有 任何 知识 的 情况 下 凭空 获取 知识 ,每 一 个 学 习 系 统 都 要 求 
具有 某 些 知识 理解 环境 提供 的 信息 ,分 析 比 较 , 做 出 假设 ,检验 并 修改 这 些 假设 。 因 此 ,更 
确切 地 说 ,学 习 系 统 是 对 现 有 知识 的 扩展 和 改进 。 

(3) 执行 部 分 是 整个 学 习 系 统 的 核心 ,因为 执行 部 分 的 动作 就 是 学 习 部 分 力求 改进 
的 动作 。 同 执行 部 分 有 关 的 问题 有 三 个 : 复杂 性 、 反 馈 和 透明 性 。 


8.2.4 研究 领域 


学 习 是 一 项 复杂 的 智能 活动 ,学习 过 程 与 推理 过 程 是 紧密 相连 的 ,按照 学 习 中 使 用 推 
理 的 多 少 ,机 器 学 习 所 采用 的 策略 大 体 上 可 分 为 4 种 机 械 学 习 、 通 过 传授 学 习 、 类 比 
学 习 和 通过 事例 学 习 。 学 习 中 所 用 的 推理 越 多 ,系统 的 能 力 越 强 。 

机 器 学 习 领 域 的 研究 工作 主要 围绕 以 下 三 个 方面 进行 。 

(1) 面向 任务 的 研究 : 研究 和 分 析 改 进 一 组 预定 任务 的 执行 性 能 的 学 习 系 统 。 

(2) 认 知 模型 : 研究 人 类 学 习 过 程 并 进行 计算 机 模拟 。 

(3) 理论 分 析 : 从 理论 上 探索 各 种 可 能 的 学 习 方 法 和 独立 于 应 用 领域 的 算法 。 

机 器 学 习 是 继 专家 系统 之 后 人 工 智能 应 用 的 又 一 重要 研究 领域 ,也 是 人 工 智 能 和 神 
经 计算 的 核心 研究 课题 之 一 。 现 有 的 计算 机 系统 和 人 工 智 能 系统 至 多 也 只 有 非常 有 限 的 
学 习 能 力 ,因而 不 能 满足 科技 和 生产 提出 的 新 要 求 。 对 机 器 学 习 的 讨论 和 研究 的 进展 , 必 
将 促使 人 工 智 能 和 整个 科学 技术 进一步 发 展 。 
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综合 考虑 各 种 学 习 方 法 出 现 的 历史 渊源 、 知 识 表 示 、 推 理 策略 ,结果 评估 的 相似 性 、 研 
究 人 员 交 流 的 相对 集中 性 以 及 应 用 领域 等 诸 因素 ,机 器 学 习 有 不 同 的 分 类 方法 。 


8.3.1 基于 学 习 策 略 的 分 类 


学 习 策略 是 指 学习 过 程 中 系统 所 采用 的 推理 策略 。 一 个 学 习 系统 总 是 由 学 习 和 环境 
两 部 分 组 成 。 由 环境 (如 书本 或 教师 ?提供 信息 ,学习 部 分 则 实现 信息 转换 ,用 能 够 理解 的 
形式 记忆 下 来 ,并 从 中 获取 有 用 的 信息 。 在 学 习 过 程 中 ,学 生 ( 学 习 部 分 ) 使 用 的 推理 越 
少 ,他 对 教师 (环境 ) 的 依赖 就 越 大 ,教师 的 负担 也 就 越 重 。 学 习 策 略 的 分 类 标准 就 是 根据 
学 生 实 现 信息 转换 所 需 的 推理 多 少 和 难 易 程 度 来 分 类 的 ,依从 简单 到 复杂 ,从 少 到 多 的 次 
序 分 为 以 下 6 种 基本 类 型 。 

(1) 机 械 学 习 。 学 习 者 无 须 任何 推理 或 其 他 的 知识 转换 ,直接 吸取 环境 所 提供 的 信 
息 。 如 塞 缪 尔 的 跳棋 程序 , 纽 厄 尔 和 西蒙 的 LT 系统 。 这 类 学 习 系统 主要 考虑 的 是 如 何 
索引 存储 的 知识 并 加 以 利用 。 系 统 的 学 习 方 法 是 直接 通过 事先 编 好 构造 好 的 程序 来 学 
习 , 学 习 者 不 做 任何 工作 ,或 者 是 通过 直接 接受 既定 的 事实 和 数据 进行 学 习 , 对 输入 信息 
不 做 任何 的 推理 。 

(2) 示 教 学 习 。 学 生 从 环境 (教师 或 其 他 信息 源 如 教科 书 等 ) 获 取信 息 , 把 知识 转换 
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成 内 部 可 使 用 的 表示 形式 ,并 将 新 的 知识 和 原 有 知识 有 机 地 结合 为 一 体 。 所 以 要 求学 生 
有 一 定 程度 的 推理 能 力 ,但 环境 仍 要 做 大 量 的 工作 。 教 师 以 某 种 形式 提出 和 组 织 知 识 , 以 
使 学 生 拥 有 的 知识 可 以 不 断 地 增加 。 这 种 学 习 方 法 和 人 类 社会 的 学 校 教学 方式 相似 ,学 
习 的 任务 就 是 建立 一 个 系统 ,使 它 能 接受 教导 和 建议 ,并 有 效 地 存储 和 应 用 学 到 的 知识 。 
不 少 专家 系统 在 建立 知识 库 时 使 用 这 种 方法 去 实现 知识 获取 。 

(3) 演绎 学 习 。 学 生 所 用 的 推理 形式 为 演绎 推理 。 推 理 从 公理 出 发 ,经 过 逻辑 变换 
推导 出 结论 。 这 种 推理 是 “ 保 真 ”变换 和 特 化 的 过 程 ,使 学 生 在 推理 过 程 中 可 以 获取 有 用 
的 知识 。 这 种 学 习 方 法 包含 宏 操 作 学 习 、 知 识 编 辑 和 组 块 技术 。 演 绎 推理 的 逆 过 程 是 归 

(4) 类 比 学 习 。 利 用 两 个 不 同 领域 ( 源 域 .目标 域 ) 中 的 知识 相似 性 ,可 以 通过 类 比 ， 
从 源 域 的 知识 (包括 相似 的 特征 和 其 他 性 质 ) 推 导出 目标 域 的 相应 知识 ,从 而 实现 学 习 。 
类 比 学 习 系统 可 以 使 一 个 已 有 的 计算 机 应 用 系统 转变 为 适应 于 新 的 领域 ,来 完成 原先 没 
有 设计 的 相 类 似 的 功能 。 

类 比 学 习 需 要 比 上 述 三 种 学 习 方式 更 多 的 推理 。 它 一 般 要 求 先 从 知识 源 ( 源 域 ) 中 检 
索 出 可 用 的 知识 ,再 将 其 转换 成 新 的 形式 ,用 到 新 的 状况 (目标 域 ) 中 去 。 类 比 学 习 在 人 类 
科学 技术 发 展 史 上 起 着 重要 作用 ,许多 科学 发 现 就 是 通过 类 比 得 到 的 。 例 如 ,著名 的 卢 瑟 
福 类 比 就 是 通过 将 原子 结构 (目标 域 ) 同 太阳 系 ( 源 域 ) 做 类 比 ,揭示 了 原子 结构 的 奥秘 。 

(5) 基于 解释 的 学 习 。 学 生根 据 教 师 提供 的 目标 概念 、 该 概念 的 一 个 例子 、 领 域 理论 
及 可 操作 准则 ,首先 构造 一 个 解释 来 说 明 为 什么 该 例子 满足 目标 概念 ,然后 将 解释 推广 为 
目标 概念 的 一 个 满足 可 操作 准则 的 充分 条 件 。 基 于 解释 的 学 习 已 被 广泛 应 用 于 知识 库 求 
精 和 改善 系统 的 性 能 。 

(6) 归纳 学 习 。 是 由 教师 或 环境 提供 某 概念 的 一 些 实例 或 反例 ,让 学 生 通 过 归纳 推 
理 得 出 该 概念 的 一 般 描述 。 这 种 学 习 的 推理 工作 量 远 多 于 示 教 学 习 和 演绎 学 习 , 因 为 环 
境 并 不 提供 一 般 性 概念 描述 (如 公理 )。 从 某 种 程度 上 说 ,归纳 学 习 的 推理 量 也 比 类 比 学 
习 大 ,因为 没有 一 个 类 似 的 概念 可 以 作为 * 源 概念 "加 以 取 用 。 归 纳 学 习 是 最 基本 的 ,发 展 
也 较为 成 熟 的 学 习 方 法 ,在 人 工 智能 领域 中 已 经 得 到 广泛 的 研究 和 应 用 。 


8.3.2 基于 所 获取 知识 的 表示 形式 分 类 


学 习 系 统 获取 的 知识 可 能 有 : 行为 规则 、 物 理 对 象 的 描述 、 问 题 求解 策略 、 各 种 分 类 
及 其 他 用 于 任务 实现 的 知识 类 型 。 

对 于 学 习 中 获取 的 知识 ,主要 有 以 下 一 些 表 示 形 式 。 

(1) 代数 表达 式 参数 : 学 习 的 目标 是 调节 一 个 固定 函数 形式 的 代数 表达 式 参数 或 系 
数 来 达到 一 个 理想 的 性 能 。 

(2) 决策 树 : 用 决策 树 来 划分 物体 的 类 属 , 树 中 每 一 内 部 节点 对 应 一 个 物体 属性 ,而 
每 一 边 对 应 于 这 些 属性 的 可 选 值 . 树 的 叶 节 点 则 对 应 于 物体 的 每 个 基本 分 类 。 

(3) 形式 文法 : 在 识别 一 个 特定 语言 的 学 习 中 ,通过 对 该 语言 的 一 系列 表达 式 进行 
归纳 ,形成 该 语言 的 形式 文法 。 

(4) 产生 式 规则 : 产生 式 规则 表示 为 条 件 一 动作 对 ,已 被 广泛 地 使 用 。 学 习 系 统 中 
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的 学 习 行 为 主要 是 : 生成 . 泛 化 、 特 化 或 合成 产生 式 规 则 。 

(5) 形式 逻辑 表达 式 : 形式 逻辑 表达 式 的 基本 成 分 是 命题 .谓词 .变量 约束 变量 范 
围 的 语句 ,及 嵌入 的 逻辑 表达 式 。 

(6) 图 和 网 络 : 有 的 系统 采用 图 匹配 和 图 转换 方案 来 有 效 地 比较 和 索引 知识 。 

(7) 框架 和 模式 : 每 个 框架 包含 一 组 槽 ,用 于 描述 事物 (概念 和 个 体 ) 的 各 个 方面 。 

(8) 计算 机 程序 和 其 他 的 过 程 编码 : 获取 这 种 形式 的 知识 ,目的 在 于 取得 一 种 能 实 
现 特定 过 程 的 能 力 ,而 不 是 为 了 推断 该 过 程 的 内 部 结构 。 

(9) 神经 网 络 : 这 主要 用 在 连接 学 习 中 。 学 习 所 获取 的 知识 ,最 后 归纳 为 一 个 神经 网 络 。 

(10) 多 种 表示 形式 的 组 合 : 有 时 一 个 学 习 系 统 中 获取 的 知识 需要 综合 应 用 上 述 几 
种 知识 表示 形式 。 

根据 表示 的 精细 程度 ,可 将 知识 表示 形式 分 为 两 大 类 : 泛 化 程度 高 的 粗 粒 度 符号 表 
示 、 泛 化 程度 低 的 精 粒 度 亚 符号 表示 。 像 决策 树 、 形 式 文法 .产生 式 规 则 形式 迎 辑 表达 
式 、 框 架 和 模式 等 属于 符号 表示 类 ;而 代数 表达 式 参数 .图 和 网 络 、. 神 经 网 络 等 则 属 亚 符号 
表示 类 。 


8.3.3 按 应 用 领域 分 类 


最 主要 的 应 用 领域 有 : 专家 系统 、 认 知 模拟 、 规 划 和 问题 求解 .数据 挖掘 、 网 络 信息 服 
务 ,图像 识 别 .故障 诊断 .自然 语言 理解 .机 器 人 和 博弈 等 领域 。 

从 机 器 学 习 的 执行 部 分 所 反映 的 任务 类 型 上 看 ,大 部 分 的 应 用 研究 领域 基本 上 集中 
于 以 下 两 个 范畴 : 分 类 和 问题 求解 。 

(1) 分 类 任务 要 求 系 统 依据 已 知 的 分 类 知识 对 输入 的 未 知 模式 (该 模式 的 描述 ) 做 分 
析 ,以 确定 输入 模式 的 类 属 。 相 应 的 学 习 目 标 就 是 学 习 用 于 分 类 的 准则 (如 分 类 规则 ) 。 

(2) 问题 求解 任务 要 求 对 于 给 定 的 目标 状态 ,寻找 一 个 将 当前 状态 转换 为 目标 状态 
的 动作 序列 ;机 器 学 习 在 这 一 领域 的 研究 工作 大 部 分 集中 于 通过 学 习 来 获取 能 提高 问题 
求解 效率 的 知识 (如 搜索 控制 知识 ,启发 式 知 识 等 )。 


8.3.4 按 学 习 形 式 分 类 


按 学 习 形式 分 类 ,包括 以 下 两 类 。 

(1) 监督 学 习 : 即 在 机 械 学 习 过 程 中 提供 对 错 指示 。 一 般 是 在 数据 组 中 包含 最 终结 
果 (0,1)。 通 过 算法 让 机 器 自我 减少 误差 。 这 一 类 学 习 主 要 应 用 于 分 类 和 预测 。 

(2) 非 监督 学 习 : 又 称 归纳 性 学 习 。 利 用 方式 ,建立 中 心 ,通过 循环 和 递减 运算 来 
减 小 误差 ,达到 分 类 的 目的 。 
【延伸 阅读 】 


知 慧 城市 ,更 好 的 生活 


大 数据 不 仅 通过 改变 人 们 的 生活 方式 提升 了 人 们 的 身体 健康 状况 和 幸福 感 , 它 也 在 
改变 人 们 的 生活 环境 。 如 今 , 世 界 上 超过 一 半 的 人 口 居住 在 城市 里 ,到 2050 年 这 一 数字 
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会 增长 到 3/4。 收 集 城市 数据 的 一 大 挑战 在 于 将 收集 到 的 数据 标准 化 。 不 同城 市 有 各 式 
各 样 的 数据 收集 方式 ,收集 到 的 数据 类 型 也 不 统一 ,这 就 加 大 了 上 比较 不 同城 市 间 的 数据 以 
发 展 最 佳 做 法 的 难度 。 但 是 可 以 收集 到 相关 数据 的 城市 ,能 够 在 基建 设施 的 投资 方面 做 
出 更 好 的 决策 。 如 果 考 虑 到 这 类 投资 可 能 的 持续 时 长 ,这 样 的 决策 就 很 重要 。 


智慧 城市 


智慧 城市 是 把 新 一 代 信 息 技术 充分 运用 在 城市 的 各 行 各 业 之 中 的 基于 知识 社会 下 一 
代 创 新 (创新 2.0) 的 城市 信息 化 高 级 形态 (图 8-7)。 智 慧 城市 通过 物 联 网 基础 设施 、 云 计 
算 基础 设施 、 地 理 空间 基础 设施 、 新 一 代 信 息 技术 以 及 大 数据 、 社 交 网 络 、Fab Lab?、 
Living Lab@ 等 工具 和 方法 的 应 用 ,营造 有 利于 创新 涌现 的 生态 ,实现 全 面 透彻 的 感知 、 
宽带 泛 在 的 互联 \ 智能 融合 的 应 用 以 及 以 用 户 创新 开放 创新 \ 大众 创新 协同 创新 为 特征 
的 可 持续 创新 。 


图 8-7 智慧 城市 


智慧 城市 经 常 与 数字 城市 .感知 城市 ,无线 城市 智能 城市 生态 城市 、 低 碳 城市 等 区 
域 发 展 概念 相交 又, 甚至 与 电子 政务 、 智 能 交通 、 智 能 电网 等 行业 信息 化 概念 发 生 混 杂 。 
对 智慧 城市 概念 的 解读 也 经 常 各 有 侧重 ,有 的 观点 认为 关键 在 于 技术 应 用 ,有 的 观点 认为 


四 ”Fab Lab(Fabrication Laboratory ,微观 装 配 实验 室 ) 是 美国 麻 省 理工 学 院 (MIT) 比 特 与 原子 研究 中 心 (Center 
for Bits and Atoms,CBA) 发 起 的 一 项 新 颖 的 实验 一 一 一 个 拥有 几乎 可 以 制造 任何 产品 和 工具 的 小 型 的 工厂 。 

CBA 主任 Gershenfeld 教授 认为 ,迄今 为 止 ,数字 革命 的 发 展 已 经 经 历 了 两 个 重要 的 阶段 ,分 别 是 个 人 通信 和 个 
人 计算 。 以 移动 技术 为 代表 的 普 适 计算 的 发 展 通过 上 述 两 个 阶段 的 发 展 ,无 所 不 在 的 个 人 通信 网 络 及 个 人 计算 已 经 
形成 。 目 前 ,人 类 正 处 于 第 三 次 数字 革命 的 前 夕 ,在 这 次 以 “个 人 制造 ”为 核心 的 革命 中 ,相关 的 材料 技术 和 信息 技术 
已 经 露出 苗头 。 

Fab Lab 是 基于 对 从 个 人 通信 到 个 人 计算 ,再 到 个 人 制造 的 社会 技术 发 展 脉络 ,试图 构建 以 用 户 为 中 心 的 ,面向 
应 用 的 融合 从 设计 、 制 造 , 到 调试 .分 析 及 文档 管理 各 个 环节 的 用 户 创新 制造 环境 。 随 着 Fab Lab 网 络 的 扩散 带动 了 
全 球 创 客 浪潮 。 发 明 创造 将 不 只 发 生 在 拥有 昂贵 实验 设备 的 大 学 或 研究 机 构 , 也 将 不 仅 属 于 少数 专业 科研 人 员 ,而 有 
机 会 在 任何 地 方 由 任何 人 完成 ,这 就 是 Fab Lab 的 核心 理念 。 相 关 构 想 和 实践 对 于 充分 调动 社会 参与 科技 创新 的 热 
情 ,丰富 公众 参与 科技 创新 的 手段 ,构建 创新 型 城市 .创新 型 国家 具有 重要 的 借鉴 价值 。 

加 ”LivingLab 是 欧盟 “知识 经 济 ” 中 最 具 激 发 性 的 模式 之 一 , 它 强调 以 人 为 本 、 以 用 户 为 中 心 和 共同 创新 。 
LivingLab 是 一 种 致力 于 培养 以 用 户 为 中 心 的 .面向 未 来 的 科技 创新 模式 和 创新 体制 的 全 新 研究 开发 环境 。 
LivingLab 立足 于 本 地 区 的 工作 和 生活 环境 ,以 科研 机 构 为 纽带 ,建立 以 政府 、 广 泛 的 企业 网 络 以 及 各 种 科研 机 构 为 主 
体 的 开放 创新 社会 。 


天 烙 扎 全 抬 


关键 在 于 网 络 建设 ,有 的 观点 认为 关键 在 于 人 的 参与 ,有 的 观点 认为 关键 在 于 智慧 效果 ， 
一 些 城市 信息 化 建设 的 先行 城市 则 强调 以 人 为 本 和 可 持续 创新 。 总 之 ,智慧 不 仅 是 智能 。 
智慧 城市 绝 不 仅 是 智能 城市 的 另外 一 个 说 法 ,或 者 说 是 信息 技术 的 智能 化 应 用 ,还 包括 人 
的 智慧 参与 .以 人 为 本 、 可 持续 发 展 等 内 涵 。 综 合 这 一 理念 的 发 展 源流 以 及 对 世界 范围 内 
区 域 信息 化 实践 的 总 结 ,《( 创 新 2.0 视野 下 的 智慧 城市 ) 一 文 从 技术 发 展 和 经 济 社会 发 展 
两 个 层面 的 创新 对 智慧 城市 进行 了 解析 ,强调 智慧 城市 不 仅 是 物 联网 、 云 计算 等 新 一 代 信 
息 技术 的 应 用 ,更 重要 的 是 通过 面向 知识 社会 的 创新 2.0 的 方法 论 应 用 。 

智慧 城市 实现 全 面 透彻 的 感知 .宽带 泛 在 的 互联 智能 融合 的 应 用 以 及 以 用 户 创 新 、 
开放 创新 .大众 创新 .协同 创新 为 特征 的 可 持续 创新 。 伴 随 网 络 帝国 的 崛起 、 移 动 技术 的 
融合 发 展 以 及 创新 的 民主 化 进程 ,知识 社会 环境 下 的 智慧 城市 是 继 数字 城市 之 后 信息 化 
城市 发 展 的 高 级 形态 。 

2010 年 ,IBM 正式 提出 了 “智慧 的 城市 "愿景 ,希望 为 世界 和 中 国 的 城市 发 展 贡献 自 
己 的 力量 。IBM 经 过 研究 认为 ,城市 由 关系 到 城市 主要 功能 的 不 同类 型 的 网 络 、 基 础 设 
施 和 环境 的 6 个 核心 系统 组 成 : 组 织 (人 )、 业 务 /政务 、 交 通 、 通 信 、 水 和 能 源 。 这 些 系统 
不 是 零散 的 ,而 是 以 一 种 协作 的 方式 相互 衔接 。 而 城市 本 身 , 则 是 由 这 些 系统 所 组 成 的 宏 
观 系统 。 


关键 因素 


有 两 种 驱动 力 推动 智慧 城市 的 逐步 形成 ,一 是 以 物 联网 、 云 计算 、 移 动 互联 网 为 代表 
的 新 一 代 信 息 技术 ,二 是 知识 社会 环境 下 逐步 孕育 的 开放 的 城市 创新 生态 。 前 者 是 技术 
创新 层面 的 技术 因素 ,后 者 是 社会 创新 层面 的 社会 经 济 因 素 。 由 此 可 以 看 出 ,创新 在 智慧 
城市 发 展 中 的 驱动 作用 。 

智慧 城市 不 仅 需要 物 联网 、 云 计算 等 新 一 代 信 息 技 术 的 支撑 ,更 要 培育 面向 知识 社会 
的 下 一 代 创 新 (创新 2.0)。 信 息 通 信 技 术 的 融合 和 发 展 消融 了 信息 和 知识 分 享 的 壁 侄 ， 
消融 了 创新 的 边界 ,推动 了 创新 2.0 形态 的 形成 ,并 进一步 推动 各 类 社会 组 织 及 活动 边界 
的 “消融 ”。 创 新 形态 由 生产 范式 向 服务 范式 转变 ,也 带动 了 产业 形态 、 政 府 管理 形态 、 城 
市 形态 由 生产 范式 向 服务 范式 的 转变 。 如 果 说 创新 1.0 是 工业 时 代 沿 袭 的 面向 生产 、 以 
生产 者 为 中 心 .以 技术 为 出 发 点 的 相对 封闭 的 创新 形态 ,创新 2.0 则 是 与 信息 时 代 、 知 识 
社会 相 适 应 的 面向 服务 、 以 用 户 为 中 心 .以 人 为 本 的 开放 的 创新 形态 。 北 京 市 城管 执法 局 
信息 装备 中 心 主任 宋 刚 博士 在 “创新 2.0 视野 下 的 智慧 城市 与 管理 创新 ”的 主题 演讲 中 ， 
从 三 代 信 息 通 信 技 术 发 展 的 社会 脉络 出 发 ,对 创新 形态 转变 带 来 的 产业 形态 、 政 府 形态 、 
城市 形态 、 社 会 管理 模式 创新 进行 了 精彩 的 演讲 。 他 指出 智慧 城市 的 建设 不 仅 需要 物 联 
网 、 云 计算 等 技术 工具 的 应 用 ,也 需要 微 博 、 维 基 等 社会 工具 的 应 用 ,更 需要 LivingLab 等 
用 户 参 与 的 方法 论 及 实践 来 推动 以 人 为 本 的 可 持续 创新 ,同时 他 结合 北京 基于 物 联 网 平 
台 的 智慧 城管 建设 对 创新 2.0 时 代 的 社会 管理 创新 进行 了 生动 的 诠释 。 

信息 化 革命 是 20 世纪 80 年 代 以 来 世界 发 展 的 最 重要 特征 , 极 大 地 推动 了 人 类 经 济 、 
社会 政治 .军事 等 各 方面 的 发 展 进程 ,创新 了 发 展 模式 ,提高 了 发 展 质量 。 进 入 21 世纪 
以 来 ,信息 化 革命 方兴未艾 ,计算 机 体积 越 来 越 小 ,处 理 速 度 越 来 越 快 ;互联 网 越 来 越 宽 ， 
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覆盖 面 越 来 越 广 ;智能 终端 功能 越 来 越 强 , 应 用 越 来 越 多 ,彻底 改变 和 提升 了 人 们 的 学 习 
方式 、 工 作 方式 、 生 活 方式 。 当 前 , 随 着 泛 在 互联 网 、 云 计算 、 物 联网 等 技术 的 迅猛 发 展 ,新 
一 轮 信息 化 革命 已 经 到 来 。 新 一 代 互 联网 、 云 计算 、 智 能 传 感 通 信 、 腺 感 , 卫 星 定位 、 地 理 
信息 系统 等 技术 的 结合 ,将 可 以 实现 对 一 切 物品 的 智能 化 识别 .定位 跟踪、 监控 与 管理 ， 
从 而 使 地 球 达到 “智慧 ?的 状态 ,使 建设 智慧 地 球 从 技术 上 成 为 可 能 。 

建设 智慧 城市 ,也 是 转变 城市 发 展 方式 提升 城市 发 展 质量 的 客观 要 求 。 通 过 建设 智 
慧 城市 ,及 时 传递 整合. 交流、 使 用 城市 经 济 、 文 化 公共 资源 .管理 服务 、 市 民生 活 、 生 态 
环境 等 各 类 信息 ,提高 物 与 物 \ 物 与 人 \ 人 与 人 的 互 连 互通 全 面 感知 和 利用 信息 能 力 ,从 
而 能 够 极 大 提高 政府 管理 和 服务 的 能 力 , 极 大 提升 人 民 群 众 的 物质 和 文化 生活 水 平 。 建 
设 智慧 城市 ,会 让 城市 发 展 更 全 面 更 协调 、 更 可 持续 ,会 让 城市 生活 变 得 更 健康 、 更 和 谐 、 
更 美好 。 

2008 年 以 来 ,智慧 地 球 理念 即 在 世界 范围 内 悄然 兴起 ,许多 发 达 国家 积极 开展 智慧 
城市 建设 ,将 城市 中 的 水 、 电 、 油 、 气 、 交 通 等 公共 服务 资源 信息 通过 互联 网 有 机 连接 起 来 ， 
智能 化 做 出 响应 ,更 好 地 服务 于 市 民 学 习 、 生 活 、 工 作 、 医 疗 等 方面 的 需求 ,以 及 改善 政府 
对 交通 的 管理 .环境 的 控制 等 。 在 我 国 , 一 些 地 区 在 数字 城市 建设 基础 上 ,开始 探索 智慧 
城市 的 建设 。 可 以 说 ,建设 智慧 城市 已 经 成 为 历史 的 必然 趋势 ,成 为 信息 领域 的 战略 制 
高 点 。 


数字 城市 


数字 城市 是 数字 地 球 的 重要 组 成 部 分 ,是 传统 城市 的 数字 化 形态 。 数 字 城 市 是 应 用 
计算 机 、 互 联网 .3S、 多 媒体 等 技术 将 城市 地 理 信息 和 城市 其 他 信息 相 结 合 , 数 字 化 并 存 
储 于 计算 机 网 络 上 所 形成 的 城市 虚拟 空间 。 数 字 城 市 建设 通过 空间 数据 基础 设施 的 标准 
化 各 类 城市 信息 的 数字 化 整合 多 方 资源 ,从 技术 和 体制 两 方面 为 实现 数据 共享 和 互 操作 
提供 了 基础 ,实现 了 城市 3S 技术 的 一 体 化 集成 和 各 行业 、 各 领域 信息 化 的 深入 应 用 。 数 
字 城 市 的 发 展 积累 了 大 量 的 基础 和 运行 数据 ,也 面临 诸多 挑战 ,包括 城市 级 海量 信息 的 采 
集 、 分 析 、 存 储 、 利 用 等 处 理 问题 ,多 系统 融合 中 的 各 种 复杂 问题 ,以 及 技术 发 展 带 来 的 城 
市 发 展 异 化 问题 。 

新 一 代 信 息 技术 的 发 展 使 得 城市 形态 在 数字 化 基础 上 进一步 实现 智能 化 成 为 现实 。 
依托 物 联网 可 实现 智能 化 感知 .识别 .定位 .跟踪 和 监管 ;借助 云 计 算 及 智能 分 析 技术 可 实 
现 海 量 信息 的 处 理 和 决策 支持 。 同 时 ,伴随 知识 社会 环境 下 创新 2.0 形态 的 逐步 展现 , 现 
代 信 息 技术 在 对 工业 时 代 各 类 产业 完成 面向 效率 提升 的 数字 化 改造 之 后 ,逐步 衍生 出 一 
些 新 的 产业 业态 、 组 织 形态 ,使 人 们 对 信息 技术 引领 的 创新 形态 演变 、 社 会 变革 有 了 更 真 
切 的 体会 ,对 科技 创新 以 人 为 本 有 了 更 深入 的 理解 ,对 现代 科技 发 展 下 的 城市 形态 演化 也 
有 了 新 的 认识 。 

对 比 数字 城市 和 智慧 城市 ,可 以 发 现 以 下 6 个 方面 的 差异 。 

其 一 ' 当 数字 城市 通过 城市 地 理 空间 信息 与 城市 各 方面 信息 的 数字 化 在 虚拟 空间 再 
现 传统 城市 ,智慧 城市 则 注重 在 此 基础 上 进一步 利用 传 感 技术 、 智 能 技术 实现 对 城市 运行 
状态 的 自动 、 实 时 、 全 面 透彻 的 感知 。 
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其 二 , 当 数 字 城 市 通过 城市 各 行业 的 信息 化 提高 了 各 行业 管理 效率 和 服务 质量 ,智慧 
城市 则 更 强调 从 行业 分 割 \. 相 对 封闭 的 信息 化 架构 迈 向 作为 复杂 巨 系统 的 开放 、 整 合 . 协 
同 的 城市 信息 化 架构 ,发 挥 城市 信息 化 的 整体 效能 。 

其 三 , 当 数 字 城 市 基于 互联 网 形成 初步 的 业务 协同 ,智慧 城市 则 更 注重 通过 泛 在 网 
络 、 移 动 技术 实现 无 所 不 在 的 互联 和 随时 随地 随身 的 物 能 融合 服务 。 

其 四 , 当 数 字 城 市 关注 数据 资源 的 生产 、 积 累 和 应 用 ,智慧 城市 更 关注 用 户 视角 的 服 
务 设计 和 提供 。 

其 五 , 当 数 字 城 市 更 多 注重 利用 信息 技术 实现 城市 各 领域 的 信息 化 以 提升 社会 生产 
效率 ,智慧 城市 则 更 强调 人 的 主体 地 位 ,更 强调 开放 创新 空间 的 塑造 及 其 间 的 市 民 参 与 、 
用 户 体验 ,及 以 人 为 本 实现 可 持续 创新 。 

其 六 , 当 数 字 城 市 致力 于 通过 信息 化 手段 实现 城市 运行 与 发 展 各 方面 功能 ,提高 城市 
运行 效率 ,服务 城市 管理 和 发 展 ,智慧 城市 则 更 强调 通过 政府 ,市 场 、 社 会 各 方 力 量 的 参与 
和 协同 实现 城市 公共 价值 塑造 和 独特 价值 创造 。 

智慧 城市 不 但 广泛 采用 物 联网 、 云 计算 、 人 工 知 能、 数据 挖 气 、 知 识 管理 ,社交 网 络 等 
技术 工具 ,也 注重 用 户 套 与 .以 人 为 本 的 创新 2.0 理念 及 其 方法 的 应 用 ,构建 有 利于 创新 
涌现 的 制度 环境 ,以 实现 智慧 技术 高 度 集成 ,智慧 产业 高 端 发 展 、 智 慧 服务 高 效 便民 、 以 人 
为 本 持续 创新 ,完成 从 数字 城市 向 智慧 城市 的 跃升 。 智 慧 城市 将 是 创新 2.0 时 代 以 人 为 
本 的 可 持续 创新 城市 。 

发 展 智慧 城市 ,是 我 国 促进 城市 高 度 信息 化 、 网 络 化 的 重大 举措 和 综合 性 措施 。 从 设 
备 厂商 角度 来 说 , 光 通 信 设 备 厂 商 、 无 线 通信 设备 厂商 将 充分 发 挥 所 属 技术 领域 的 优势 ， 
将 无 线 和 有 线 充分 进行 融合 ,实现 网 络 最 优化 配置 ,以 加 速 推动 智慧 城市 的 发 展 进程 。 与 
之 相对 应 的 通信 设备 厂商 .芯片 厂商 等 将 从 中 获得 巨大 收益 。 


应 用 体系 


(1) 智慧 公共 服务 : 建设 智慧 公共 服务 和 城市 管理 系统 。 通 过 加 强 就 业 、 医 疗 、 文 
化 、 安 居 等 专业 性 应 用 系统 建设 ,通过 提升 城市 建设 和 管理 的 规范 化 精准 化 和 智能 化 水 
平 ,有 效 促进 城市 公共 资源 在 全 市 范围 共享 ,积极 推动 城市 人 流 、 物 流 、 信 息 流 、 资 金 流 的 
协调 高 效 运行 ,在 提升 城市 运行 效率 和 公共 服务 水 平 的 同时 ,推动 城市 发 展 转型 升级 。 

(2) 智慧 城市 综合 体 : 采用 视觉 采集 和 识别 、 各 类 传感器 、 无 线 定位 系统 、RFID、 条 码 
识别 ,视觉 标签 等 顶尖 技术 ,构建 智能 视觉 物 联 网 ,对 城市 综合 体 的 要 素 进行 智能 感知 、 自 
动 数 据 采集 ,涵盖 城市 综合 体 当中 的 商业 、 办 公 、 居 住 、 旅 店 、 展 览 餐饮、 会 议 、 文 娱 和 交 
通 、 灯 光照 明 、 信 息 通 信和 显示 等 方方面面 ,将 采集 的 数据 可 视 化 和 规范 化 ,让 管理 者 能 进 
行 可 视 化 城市 综合 体 管理 。 

(3) 智慧 政务 城市 综合 管理 运营 平台 : 此 类 项 目 已 有 实际 落地 案例 ,天 津 市 和 平 区 
的 “智慧 和 平城 市 综合 管理 运营 平台 ”包括 指挥 中 心 .计算 机 网 络 机 房 、 智 能 监控 系统 、 和 
平 区 街道 图 书馆 和 数字 化 公共 服务 网 络 系统 4 部 分 内 容 。 其 中 ,指挥 中 心 系统 宫 括 政府 
智慧 大 脑 6 大 中 枢 系 统 , 分 别 为 公安 应 急 系 统 、 公 共 服务 系统 、 社 会 管理 系统 、 城 市 管理 系 
统 、 经 济 分 析 系统 、 与 情 分 析 系 统 。 该 项 目 为 满足 政府 应 急 指 挥 和 决策 办 公 的 需要 ,对 区 
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内 现 有 监控 系统 进行 升级 换代 ,增加 智能 视觉 分 析 设 备 , 提 升 快 速 反应 速度 ,做 到 事前 预 
警 , 事 中 处 理 及 时 迅速 ,并 统一 数据 、 统 一 网 络 , 建 设 数据 中 心 、 共 享 平台 ,从 根本 上 有 效 地 
将 政府 各 个 部 门 的 数据 信息 互 连 互通 ,并 对 整个 和 平 区 的 车 流 、 人 流 、 物 流 实现 全 面 的 感 
知 , 该 平台 在 和 平 区 经 济 建设 中 将 为 领导 的 科学 指挥 决策 提供 技术 支撑 作用 。 

(4) 智慧 安居 服务 (图 8-8)。 开 展 智慧 社区 安居 的 调研 试点 工作 ,在 部 分 居民 小 区 为 
先行 试点 区 域 ,充分 考虑 公共 区 、 商 务 区 、 居 住 区 的 不 同 需求 ,融合 应 用 物 联 网 、 互 联网 、 移 
动 通信 等 各 种 信息 技术 ,发 展 社区 政务 、 智 慧 家 居 系 统 、 智 慧 楼 宇 管理 ,智慧 社区 服务 、 社 
区 远程 监控 ,安全 管理 .智慧 商务 办 公 等 智慧 应 用 系统 ,使 居民 生活 “智能 化 发 展 "。 加 快 
智慧 社区 安居 标准 方面 的 探索 推进 工作 ,为 今后 全 市 新 建 楼 宇和 社区 实行 智能 化 管理 打 
好 基础 。 


便携 式 触摸 屏 ”气体 传感器 火灾 传感器 RIP 彩色 般 潮 愤 温度 控制 器 空调 
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图 8-8 智能 家 居 


(5) 智慧 教育 文化 服务 : 积极 推进 智慧 教育 文化 体系 建设 。 建 设 完善 教育 城 域 网 和 
校园 网 工程 ,推动 智慧 教育 事业 发 展 ,重点 建设 教育 综合 信息 网 、 网 络 学 校 、 数 字 化 课件 、 
教学 资源 库 、 虚 拟 图 书馆 、 教 学 综合 管理 系统 、 远 程 教育 系统 等 资源 共享 数据 库 及 共享 应 
用 平台 系统 。 继 续 推 进 再 教育 工程 ,提供 多 渠道 的 教育 培训 就 业 服 务 ,建设 学 习 型 社会 
继续 深化 “文化 共享 ”工程 建设 ,积极 推进 先进 网 络 文化 的 发 展 , 加 快 新 闻 出 版 .广播 影视 、 
电子 娱乐 等 行业 信息 化 步伐 ,加 强 信息 资源 整合 ,完善 公共 文化 信息 服务 体系 。 构 建 旅游 
公共 信息 服务 平台 ,提供 更 加 便捷 的 旅游 服务 ,提升 旅游 文化 品 

(6) 智慧 服务 应 用 。 组 织 实 施 部 分 智慧 服务 业 试 点 项 目 . 通 过 示范 带动 ,推进 传统 服 
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务 企业 经 营 、 管 理 和 服务 模式 创新 ,加 快 向 现代 智慧 服务 产业 转型 。 

G@ 智慧 物流 : 配合 综合 物流 园区 信息 化 建设 ,推广 射频 识别 (RFID)、 多 维 条 码 、 卫 星 
定位 、 货 物 跟 踪 、 电 子 商 务 等 信息 技术 在 物流 行业 中 的 应 用 ,加 快 基于 物 联网 的 物流 信息 
平台 及 第 四 方 物流 信息 平台 建设 ,整合 物流 资源 ,实现 物流 政务 服务 和 物流 商务 服务 的 一 
体 化 ,推动 信息 化 、 标 准 化 、 智 能 化 的 物流 企业 和 物流 产业 发 展 。 

@ 智慧 贸易 : 支持 企业 通过 自 建 网 站 或 第 三 方 电子 商务 平台 ,开展 网 上 询 价 、 网 上 
采购 、 网 上 营销 ,网 上 支付 等 电子 商务 活动 。 积 极 推 动 商 贸 服务 业 、 旅 游 会 展业 、 中 介 服 务 
业 等 现代 服务 业 领 域 运用 电子 商务 手段 ,创新 服务 方式 ,提高 服务 层次 。 结 合 实体 市 场 的 
建立 ,积极 推进 网 上 电子 商务 平台 建设 ,鼓励 发 展 以 电子 商务 平台 为 聚合 点 的 行业 性 公共 
信息 服务 平台 ,培育 发 展 电 子 商 务 企业 ,重点 发 展 集 产品 展示 、 信 息 发 布 . 交 易 、 支 付 于 一 
体 的 综合 电子 商务 企业 或 行业 电子 商务 网 站 。 

图 建设 智慧 服务 业 示 范 推广 上 基地。 积极 通过 信息 化 深入 应 用 ,改造 传统 服务 业经 
营 、 管 理 和 服务 模式 ,加 快 向 智能 化 现代 服务 业 转 型 。 结 合 我 市 服务 业 发 展现 状 ,加 快 扒 
进 现 代金 融 、 服 务 外 包 、 高 端 商务 、 现 代 商 贸 等 现代 服务 业 发 展 。 

(7) 智慧 健康 保障 体系 建设 。 重 点 推进 “数字 卫生 ”系统 建设 。 建 立 卫 生 服 务 网 络 和 
城市 社区 卫生 服务 体系 ,构建 全 市 区 域 化 卫生 信息 管理 为 核心 的 信息 平台 ,促进 各 医疗 卫 
生 单 位 信息 系统 之 间 的 沟通 和 交互 。 以 医院 管理 和 电子 病历 为 重点 ,建立 全 市 居民 电子 
健康 档案 ;以 实现 医院 服务 网 络 化 为 重点 ,推进 远程 挂号 、 电 子 收费 、 数 字 远 程 医疗 服务 、 
图 文体 检 诊 断 系 统 等 智慧 医疗 系统 建设 ,提升 医疗 和 健康 服务 水 平 。 

(8) 智慧 交通 。 建 设 “ 数 字 交 通 ” 工 程 ,通过 监控 、 监 测 、 交 通 流量 分 布 优化 等 技术 , 完 
善 公安 ,城管 .公路 等 监控 体系 和 信息 网 络 系统 ,建立 以 交通 诱导 、 应 急 指挥 .智能 出 行 、 出 
租车 和 公交 车 管理 等 系统 为 重点 的 ,统一 的 智能 化 城市 交通 综合 管理 和 服务 系统 建设 , 实 
现 交通 信息 的 充分 共享 、 公 路 交通 状况 的 实时 监控 及 动态 管理 ,全 面 提升 监控 力度 和 智能 
化 管理 水 平 ,确保 交通 运输 安全 、 畅 通 。 

智慧 城市 是 一 个 在 不 断 发 展 中 的 概念 ,是 城市 信息 化 发 展 到 一 定 阶段 的 产物 , 随 着 技 
术 、 经 济 和 社会 的 发 展 不 断 持续 完善 。 借 助 大 数据 、 云 计算 、 物 联网 、 地 理 人 信息、 移动 互联 
网 等 新 一 代 信息 技术 的 强大 驱动 力 ,发 展 智慧 应 用 ,建立 一 套 新 型 的 、 可 持续 的 城市 发 展 
模式 ,从 而 名 勒 出 一 幅 未 来 “智能 城市 ”的 蓝图 。 

资料 来 源 : 综合 搜狗 百科 ,有 删改 。 


【实验 与 思考 】 
了 解 机 器 学 习 
1. 实验 目的 


(1) 了 解 人 工 智 能 的 基础 知识 和 主要 应 用 ; 
(2) 熟悉 机 器 学 习 的 基础 原理 、 基 本 分 类 与 主要 功能 .理解 机 器 学 习 对 大 数据 技术 的 
义 。 


多 因 攻略 民 起 售 提 


2. 工具 /准备 工作 


在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 。 


3. 实验 内 容 与 步骤 


(1) 请 结合 查阅 相关 文献 资料 ,为 ”人工 智能 ?给 出 一 个 权威 性 的 定义 。 
答 : 


这 个 定义 的 来 源 是 : 
(2) 请 结合 查阅 相关 文献 资料 , 简 述 人 工 智 能 的 主要 应 用 。 
答 : 


(3) 请 结合 查阅 相关 文献 资料 ,为 “机 器 学 习 ” 给 出 一 个 权威 性 的 定义 。 
答 : 


这 个 定义 的 来 源 是 : 

(4) 请 结合 查阅 相关 文献 资料 , 简 述 在 具体 的 应 用 中 ,确定 机 器 学 习 工 作 内 容 的 是 环 
境 、 知 识 库 和 执行 等 三 部 分 。 

答 : 

环境 : 


知识 库 : 


攻 


4. 实验 总 结 


5. 实验 评价 (教师 ) 
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大 数据 在 云端 


【导读 案例 】 
亚 马 迎 ,数据 在 云端 


市 场 上 有 两 种 并 行 趋势 。 首 先 , 数 据 量 在 不 断 增 长 。 现 在 越 来 越 多 的 数据 以 照片 、 推 
文 、 点 “ 赞 ” 以 及 电子 邮件 的 形式 出 现 ;这 些 数据 又 有 与 之 相 联 系 的 其 他 数据 ;机 器 生成 的 
数据 则 以 状态 更 新 及 其 他 信息 的 形式 存在 ,而 其 他 信息 包括 源 自 服务 器 .汽车 \ 飞 机 、 移 动 
电话 等 设备 的 人 信息。 结果, 处 理 所 有 这 些 数据 的 复杂 性 也 随 之 升 高 。 更 多 的 数据 意味 着 
它们 需要 进行 整合 .理解 以 及 提炼 ,也 意味 着 数据 安全 及 数据 隐私 方面 存在 更 高 的 风险 。 
在 过 去 ,公司 将 内 部 数据 (例如 销售 数据 ) 和 外 部 数据 (例如 品牌 情绪 或 市 场 研 究 数字 ) 区 
别 对 待 ,现在 则 希望 将 这 些 数据 进行 整合 ,以 利用 由 此 产生 的 洞察 分 析 。 

其 次 ,企业 正 将 计算 和 处 理 的 环节 转移 到 云 中 。 这 就 意味 着 不 必 购 买 硬件 和 软件 ,只 
需 将 其 安装 到 自己 的 数据 中 心 ,然后 对 基础 设施 进行 维护 ,企业 就 可 以 在 网 上 获得 想 要 的 
功能 。 软 营 模式 (Software as a Service,SaaS) 公 司 Salesforce. com 开创 了 在 网 上 以 “无 软 
件 ” 模 式 为 客户 关系 管理 (CRM) 应 用 程序 交付 的 先例 。 这 家 公司 随后 建立 了 一 个 服务 生 
态 系统 ,以 补充 其 核心 的 CRM 解决 方案 。 

与 此 同时 ,亚马逊 也 为 必要 的 基础 设施 铺 平 了 道路 一 -使 用 亚马逊 Web 服务 
(AWS) 在 云 中 计算 和 存储 。 亚 马 进 在 2003 年 推出 了 AWS, 希望 从 Amazon. com 商店 
运行 所 需 的 基础 设施 上 获 利 。 然 后 , 亚 马 进 继续 增加 其 按 需 基础 设施 服务 ,让 开发 商 迅 速 
带 来 新 的 服务 器 、 存 储 器 及 数据 库 。 亚 马 过 也 引进 了 特定 的 大 数据 服务 ,其 中 包括 
Amazon MapReduce( 一 项 开源 Hadoop-MapReduce 服务 的 亚马逊 云 版 本 ) 以 及 Amazon 
RedShift( 一 项 数据 仓库 按 需 解决 方案 )。 亚 马 进 预计 该 方案 每 年 每 太 字 节 (TB) 的 成 本 
仅 为 1000 美元 一 一 不 到 公司 一 般 内 部 部 署 数 据 仓库 花费 的 1/10, 换 言 之 ,通常 公司 每 年 
每 太 字 节 的 成 本 超过 一 万 美元 。 同 时 ,亚马逊 公司 提供 的 在 线 备 份 服务 Amazon Glacier 
提供 低 成 本 数字 归档 服务 ,该 服务 每 月 每 千 兆 字 节 的 费用 仅 为 0. 01 美元 , 约 合 每 年 每 太 
字 节 120 美元 。 

和 其 他 供应 商 相 比 ,亚马逊 有 两 大 优势 。 第 一 : 它 具 有 非常 著名 的 消费 者 品牌 ;第 二 ， 
它 也 从 支持 网 站 Amazon. com 而 获得 的 规模 经 济 以 及 其 基础 设施 服务 的 其 他 广泛 客户 
中 受益 。 虽 然 其 他 一 些 著名 公司 也 提供 云 基础 设施 ,包括 谷歌 及 其 谷歌 云 平台 ,还 有 微软 
及 其 Windows Azure, 但 亚马逊 已 为 此 铺 平 了 道路 ,并 以 AWS 占据 了 有 利 位 置 。 
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所 有 这 些 云 服务 胜 过 传统 服务 的 优势 在 于 ,顾客 只 为 使 用 的 东西 消费 。 这 尤其 对 创 
业 公 司 有 利 ,它们 可 以 避免 高 昂 的 先期 投入 ,而 这 通常 涉及 购买 .部署 、 管 理 服务 器 和 存储 
基础 设施 。 

AWS 让 世人 见证 了 其 惊人 的 增长 速度 。 这 项 服务 在 2012 年 为 公司 财政 收入 增添 了 
的 一 百 五 十 亿美 元 。 截 至 2012 年 6 月 ,亚马逊 简单 存储 服务 Simple Storage Service(S3) 
的 存储 量 超过 一 万 亿 太 字 节 ,每 秒 新 增 存储 量 超过 4 万 。 而 在 2006 年 年 末 , 当 时 的 存储 
量 还 仅 为 290 亿 太 字 节 ,到 2010 年 年 末 为 2620 亿 太 字 节 。 像 Netflix、.Dropbox 这 样 的 公 
司 就 在 AWS 上 经 营业 务 。 之 后 亚马逊 继续 拓展 其 按 需 基础 设施 服务 ,增加 了 IP 路 由 选 
择 、 电 子 邮件 发 送 以 及 大 量 与 大 数据 相关 的 服务 。 亚 马 进 也 和 一 个 合作 伙伴 的 生态 系统 
合作 ,为 他 们 提供 基础 设施 产品 。 因 此 ,任何 新 出 现 的 基础 设施 创业 公司 想 要 构建 公共 云 
产品 ,要 做 的 很 可 能 就 是 : 想 办 法 与 亚马逊 合作 ,或 者 期 待 公司 创造 出 有 竞争 力 的 产品 。 

阅读 上 文 ,请 思考 、 分 析 并 简单 记录 : 

(1) 亚马逊 既是 非常 著名 的 消费 者 品牌 ,又 是 云 计 算 基 础 设施 服务 供应 商 , 你 了 解 其 
中 的 关系 吗 ? 

答 : 


(2) 亚 马 进 提供 的 主要 的 云 计算 服务 是 什么 ? 
答 : 


(3) 还 有 哪些 著名 的 国际 化 企业 在 向 社会 提供 云 计 算 服务 ? 
答 : 


(4) 请 简单 描述 你 所 知道 的 上 一 周 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
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所 谓 基础 设施 ,是 指 在 IT 环境 中 ,为 具体 应 用 提供 计算 、 存 储 、 互 联 、 管 理 等 基础 功 
能 的 软 硬 件 系 统 。 在 信息 技术 发 展 的 早期 ,IT 基础 设施 往往 由 一 系列 昂贵 的 ,经 过 特殊 
设计 的 软 硬 件 设备 组 成 ,存储 容量 非常 有 限 , 系 统 之 间 也 没有 高 效 的 数据 交换 通道 ,应 用 
软件 直接 运行 在 硬件 平台 上 。 在 这 种 环境 中 ,用 户 不 容易 、 也 没有 必要 去 区 分 哪些 部 分 属 
于 基础 设施 ,哪些 部 分 是 应 用 软件 。 然 而 , 随 着 对 新 应 用 的 需求 不 断 涌现 ,IT 基础 设施 发 
生 了 翻天 覆 地 的 变化 。 


9.1.1 什么 是 云 计 算 


摩尔 定律 在 过 去 的 几 十 年 书写 了 奇迹 ,并 且 奇 迹 还 在 延续 。 在 这 奇迹 的 背后 ,是 越 来 
越 廉价 ` 越 来 越 高 效 的 计算 能 力 。 有 了 强大 的 计算 能 力 , 人 类 可 以 处 理 更 为 庞大 的 数据 ， 
而 这 又 带 来 对 存储 的 需求 。 再 之 后 ,就 需要 把 并 行 计 算 的 理论 搬 上 台面 ,更 大 限度 地 挖掘 
IT 基础 设施 的 潜力 。 于 是 ,网 络 也 蓬勃 发 展 起 来 。 由 于 硬件 已 经 变 得 前 所 未 有 的 复杂 ， 
专门 管理 硬件 资源 、 为 上层 应 用 提供 运行 环境 的 系统 软件 也 顺应 历史 潮流 ,迅速 发 展 
壮大 。 

基于 大 规模 数据 的 系列 应 用 正在 悄然 推动 着 IT 基础 设施 的 发 展 ,尤其 是 大 数据 对 
海量 、 高 速 存储 的 需求 。 为 了 对 大 规模 数据 进行 有 效 的 计算 ,必须 最 大 限度 地 利用 计算 和 
网 络 资 源 。 计 算 虚 拟 化 和 网 络 虚拟 化 要 对 分 布 式 、 异 构 的 计算 、 存 储 、 网 络 资源 进行 有 效 
的 管理 。 

所 谓 “ 云 计算 ”(Cloud Computing, 图 9-1) ,是 一 种 基于 互联 网 的 计算 方式 ,通过 这 种 
方式 ,共享 的 软 硬 件 资源 和 信息 可 以 按 需 求 提供 给 计算 机 和 其 他 设备 。 云 计算 为 我 们 提 
供 了 跨 地 域 .高 可 靠 、 按 需 付费 、 所 见 即 所 得 ,快速 部 署 等 能 力 , 这 些 都 是 长 期 以 来 IT 行 
业 所 追寻 的 。 随 着 云 计算 的 发 展 ,大 数据 正成 为 云 计 算 面 临 的 一 个 重大 考验 。 

云 是 网 络 .互联 网 的 一 种 比喻 说 法 。 过 去 在 图 中 往往 用 云 来 表示 电信 网 ,后 来 也 用 来 
表示 互联 网 和 底层 基础 设施 的 抽象 。 云 计算 是 继 20 世纪 80 年 代 大 型 计算 机 到 客户 / 服 
务 器 的 大 转变 之 后 的 又 一 种 巨变 。 用 户 不 再 需要 了 解 “ 云 ”中 基础 设施 的 细节 ,不 必 具 有 
相应 的 专业 知识 ,也 无 须 直接 进行 控制 。 云 计算 描述 了 一 种 基于 互联 网 的 新 的 IT 服务 
增加 、 使 用 和 交付 模式 ,通常 涉及 通过 互联 网 来 提供 动态 易 扩 展 , 而 且 经 常 是 虚拟 化 的 资 
源 , 它 意味 着 计算 能 力也 可 作为 一 种 商品 通过 互联 网 进行 流通 。 

Wiki( 维 基 ) 的 定义 是 : 云 计 算是 一 种 通过 因特网 以 服务 的 方式 提供 动态 可 伸缩 的 虚 
拟 化 的 资源 的 计算 模式 。 

美国 国家 标准 与 技术 研究 院 (NIST) 的 定义 是 : 云 计 算是 一 种 按 使 用 量 付费 的 模式 ， 
这 种 模式 提供 可 用 的 、 便 捷 的 、 按 需 的 网 络 访问 .进入 可 配置 的 计算 资源 共享 池 ( 资 源 包 括 
网 络 ,服务 器 ,存储 ,应 用 软件 ,服务 ) ,这 些 资源 能 够 被 快速 提供 ,只 需 投 入 很 少 的 管理 工 
作 , 或 与 服务 供应 商 进行 很 少 的 交互 。 

云 计算 是 分 布 式 计 算 (Distributed Computing) 、 并 行 计算 (Parallel Computing) 、 效 
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用 计算 (Utility Computing)、 网 络 存储 (Network Storage Technologies)、 虚拟 化 
《Virtualization) 、 负 载 均 衡 (Load Balance) 等 传统 计算 机 和 网 络 技术 发 展 融合 的 产物 。 


9.1.2 去 计算 的 服务 形式 


云 计算 按照 服务 的 组 织 ,交付 方式 的 不 同 , 有 公有 云 .私有 去 .混合 云 之 分 。 公 有 云 向 
所 有 人 提供 服务 ,典型 的 公有 云 提供 商 是 亚马逊 ,人 们 可 以 用 相对 低廉 的 价格 方便 地 使 用 
亚马逊 EC2 的 虚拟 主机 服务 。 私 有 云 往往 只 针对 特定 客户 群 提供 服务 ,比如 一 个 企业 内 
部 IT 可 以 在 自己 的 数据 中 心 搭建 私有 云 , 并 向 企业 内 部 提供 服务 。 目 前 也 有 部 分 企业 
整合 了 内 部 私有 云 和 公有 云 , 统 一 交付 云 服务 .这 就 是 混合 云 。 

云 计算 包括 以 下 几 个 层次 的 服务 : 基础 设施 即 服务 (IaaS) ,平台 即 服务 (PaaS) 和 软 
件 即 服务 (SaaS)。 这 里 ,分 层 体系 架构 意义 上 的 “层次 ”IaaS、PaaS 和 SaaS 分 别 在 基础 设 
施 层 、 软 件 开放 运行 平台 层 和 应 用 软件 层 实 现 。 

IaaS(Infrastructure as a Service) : 基础 设施 级 服务 。 消 费 者 通过 因特网 可 以 从 完善 
的 计算 机 基础 设施 获得 服务 。 

IaaS 通过 网 络 向 用 户 提 供 计算 机 (物理 机 和 虚拟 机 )、 存 储 空间 、 网 络 连 接 、 负 和 载 均 衡 
和 防火 墙 等 基本 计算 资源 ;用 户 在 此 基础 上 部 署 和 运行 各 种 软件 ,包括 操作 系统 和 应 用 程 
序 。 例 如 ,通过 亚马逊 的 AWS, 用 户 可 以 按 需 定制 所 要 的 虚拟 主机 和 块 存储 等 ,在线 配 置 
和 管理 这 些 资源 。 

PaaS(Platform as a Service) : 平台 级 服务 。PaaS 实际 上 是 指 将 软件 研发 的 平台 作 
为 一 种 服务 ,以 SaaS 的 模式 提交 给 用 户 。 因 此 ,PaaS 也 是 SaaS 模式 的 一 种 应 用 。 但 是 ， 
PaaS 的 出 现 可 以 加 快 SaaS 的 发 展 ,尤其 是 加 快 SaaS 应 用 的 开发 速度 。 

平台 通常 包括 操作 系统 、 编 程 语言 的 运行 环境 数据库 和 Web 服务 器 ,用 户 在 此 平台 
上 部 署 和 运行 自己 的 应 用 。 用 户 不 能 管理 和 控制 底层 的 基础 设施 ,只 能 控制 自己 部 署 的 
应 用 。 目 前 常见 的 PaaS 提供 商 有 CloudFoundry、 谷 歌 的 GAE 等 。 

SaaS(Software as a Service) : 软件 级 服务 。 它 是 一 种 通过 因特网 提供 软件 的 模式 ， 
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用 户 无 须 购买 软件 ,而 是 向 提供 商 租 用 基于 Web 的 软件 ,来 管理 企业 经 营 活动 ,例如 邮件 
服务 .数据 处 理 服务 .财务 管理 服务 等 。 


9.1.3 云 计 算 与 大 数据 


信息 技术 的 发 展 主要 解决 的 是 云 计算 中 结构 化 数据 的 存储 ` 处 理 与 应 用 。 结 构 化 数 
据 的 特征 是 “逻辑 性 强 ”, 每 个 * 因 ?都 有 * 果 ”。 然 而 ,现实 社会 中 大 量 数据 事实 上 没有 ”* 显 
现 ? 的 因果 关系 ,如 一 个 时 刻 的 交通 堵塞 ,天 气 状态 .人 的 心理 状态 等 , 它 的 特征 是 随时 ` 海 
量 与 弹性 的 ,如 一 个 突变 天 气 分 析 会 有 几 百 PB 数据 。 而 一 个 社会 事件 如 乔布斯 去 世 瞬 
间 所 产生 在 互联 网 上 的 数据 ( 微 博 、 纪 念 文章 .视频 等 ) 也 是 突然 爆发 出 来 的 。 

传统 的 计算 机 设计 与 软件 都 是 以 解决 结构 化 数据 为 主 , 对 * 非 结构 ?要求 一 种 新 的 计 
算 架 构 。 互 联网 时 代 , 尤 其 是 社交 网 络 、 电 子 商务 与 移动 通信 把 人 类 社会 带 入 一 个 以 
“PB” 为 单位 的 结构 与 非 结构 数 据 信息 的 新 时 代 , 它 就 是 “大 数据 "(Big Data) 时 代 。 

云 计 算 和 大 数据 在 很 大 程度 上 是 相辅相成 的 ,最 大 的 不 同 在 于 : 云 计算 是 你 在 做 的 
事情 ,而 大 数据 是 你 所 拥有 的 东西 。 以 云 计算 为 基础 的 信息 存储 、 分 享 和 挖掘 手段 为 知识 
生产 提供 了 工具 ,而 通过 对 大 数据 分 析 、 预 测 会 使 得 决策 更 加 精准 ,两 者 相得益彰 。 从 另 
一 个 角度 讲 , 云 计算 是 一 种 IT 理念 .技术 架 
构 和 标准 ,而 云 计算 也 不 可 避免 地 会 产生 大 
量 的 数据 。 所 以 说 ,大 数据 技术 与 云 计算 的 
发 展 密切 相关 ,大 型 的 云 计算 应 用 不 可 或 缺 
的 就 是 数据 中 心 的 建设 (图 9-2) ,大 数据 技术 
是 云 计算 技术 的 延伸 。 a a | 

大 数据 为 云 计算 大 规模 与 分 布 式 的 计算 和 5 | 1 
能 力 提供 了 应 用 的 空间 ,解决 了 传统 计算 机 h 
无 法 解决 的 问题 。 国 内 有 很 多 电 商 企业 ,用 图 9-2 位 于 美国 爱 荷 华 州 的 谷歌 数据 中 心 ， 
小 型 计算 机 和 Oracle 公司 对 抗 了 好 几 年 ,并 占 地 1 万 平方 米 
请 了 全 国 最 牛 的 Oracle 专家 不 停 地 优化 其 
Oracle 和 小 型 计算 机 ,初期 发 展 可 能 很 快 .但 是 后 来 由 于 数据 量 激增 ,业务 开始 受到 严重 
影响 ,一 个 典型 的 例子 就 是 某 网 上 商城 之 前 发 生 的 大 规模 访问 请 求 宕 机 事件 ,因此 他 们 开 
始 逐 渐 放 弃 了 Oracle 或 者 MS-SQL ,并 逐渐 转向 MySQL x86 的 分 布 式 架构 。 目 前 的 基 
本 计算 单元 常常 是 普通 的 x86 服务 器 ,它们 组 成 了 一 个 大 的 云 , 而 未 来 的 云 计算 单元 里 可 
能 有 独立 的 存储 单元 、 计 算 单元 协调 单元 ,总 体 的 效率 会 更 高 。 

海量 的 数据 需要 足够 的 存储 来 容纳 它 ,快速 \、 低 廉价 格 、 绿 色 的 数据 中 心 部 署 成 为 关 
键 。Google、Facebook、Rackspace 等 公司 都 纷纷 建设 新 一 代 的 数据 中 心 ,大 部 分 都 采用 
更 高 效 、 节 能 、 订 制 化 的 云 服务 器 ,用 于 大 数据 存储 、 挖 掘 和 云 计算 业务 。 

数据 中 心 正在 成 为 新 时 代 知 识 经 济 的 基础 设施 。 从 海量 数据 中 提取 有 价值 的 信息 ， 
数据 分 析 使 数据 变 得 更 有 意义 ,并 将 影响 政府 ,金融 、 零 售 、 娱 乐 、 媒 体 等 各 个 领域 , 带 来 革 
命 性 的 变化 。 
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9.1.4 云 基础 设施 


大 数据 解决 方案 的 构架 离 不 开 云 计算 的 支撑 。 支 撑 大 数据 及 云 计 算 的 底层 原则 是 一 
样 的 , 即 规模 化 .自动 化 .资源 配置 . 自 愈 性 ,这 些 都 是 底层 的 技术 原则 。 也 可 以 说 ,大 数据 
是 构建 在 云 计 算 基 础 架构 之 上 的 应 用 形式 ,因此 它 很 难 独立 于 云 计算 架构 而 存在 。 云 计 
算 下 的 海量 存储 、` 计 算 虚 拟 化 ` 网 络 虚拟 化 ` 云 安全 及 云 平 台 就 像 支撑 大 数据 这 座 大 楼 的 
钢筋 水 泥 。 只 有 好 的 云 基础 架构 支持 ,大 数据 才能 立 起 来 ,站 得 更 高 。 

虚拟 化 (Virtualization) 是 云 计算 所 有 要 素 中 最 基本 ,也 是 最 核心 的 组 成 部 分 。 和 云 
计算 在 最 近 几 年 才 出 现 不 同 , 虚 拟 化 技术 的 发 展 其 实 已 经 走 过 了 半 个 多 世纪 (1956)。 在 
虚拟 化 技术 的 发 展 初期 ,IBM 是 主力 军 , 它 把 虚拟 化 技术 用 在 了 大 型 计算 机 领域 。1964 
年 ,IBM 设计 了 名 为 CP-40 的 新 型 操作 系统 ,实现 了 虚拟 内 存 和 虚拟 机 。 到 1965 年 ， 
IBM 推出 了 System/360 Model 67 (图 9-3) 和 
TSS(Time Sharing System, 分 时 共享 系统 ), 允 
许 很 多 远程 用 户 共 享 同 一 高 性 能 计算 设备 的 使 
用 时 间 。1972 年 ,IBM 发 布 了 用 于 创建 灵活 大 型 
主机 的 虚拟 机 技术 ,实现 了 根据 动态 需求 快速 而 
有 效 地 使 用 各 种 资源 的 效果 。 作 为 对 大 型 计算 
机 进行 逮 辑 分 区 以 形成 若干 独立 虚拟 机 的 一 种 
方式 ,这 些 分 区 允许 大 型 计算 机 进行 “多 任务 处 
图 9-3 IBM System/360 理 ” 一 一 同时 运行 多 个 应 用 程序 和 进程 。 由 于 当 

时 大 型 计算 机 是 十 分 昂贵 的 资源 ,虚拟 化 技术 起 


到 了 提高 投资 利用 率 的 作用 。 

利用 虚拟 化 技术 ,允许 在 一 台 主 机 上 运行 多 个 操作 系统 ,让 用 户 尽 可 能 地 充分 利用 昂 
贵 的 大 型 计算 机 资源 。 其 后 ,虚拟 化 技术 从 大 型 计算 机 延伸 到 UNIX 小 型 计算 机 领域 ， 
HP、Sun( 已 被 Oracle 收购 ) 及 IBM 都 将 虚拟 化 技术 应 用 到 其 小 型 计算 机 中 。 

1998 年 ,VMware 公司 成 立 , 这 是 在 x86 虚拟 化 技术 发 展 史上 很 重要 的 一 个 里 程 碑 。 
VMware 发 布 的 第 一 款 虚 拟 化 产品 VMware Virtual Platform ,通过 运行 在 Windows NT 
上 的 VMware 来 启动 Windows 95 ,开启 了 虚拟 化 在 x86 服务 器 上 的 应 用 。 

相 比 于 大 型 计算 机 和 小 型 计算 机 ,x86 服务 器 和 虚拟 化 技术 并 不 是 兼容 得 很 好 。 但 
是 VMware 针对 x86 平台 研发 的 虚拟 化 技术 不 仅 克服 了 虚拟 化 技术 层面 的 种 种 挑战 ,其 
提供 的 VMware Infrastructure 更 是 极 大 地 方便 了 虚拟 机 的 创建 和 管理 。VMware 对 虚 
拟 化 技术 的 研究 ,开创 了 虚拟 化 技术 的 x86 时 代 , 在 很 长 一 段 时 间 内 ,服务 器 虚拟 化 市 场 
都 是 VMware 一 枝 独 秀 。 

虚拟 化 技术 中 最 核心 的 部 分 分 别 是 计算 虚拟 化 、 存 储 虚拟 化 和 网 络 虚拟 化 。 


92 计算 虚拟 化 
计算 虚拟 化 ,又 称 平台 虚拟 化 或 服务 器 虚拟 化 , 它 的 核心 思想 是 使 在 一 个 物理 计算 机 
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上 同时 运行 多 个 操作 系统 成 为 可 能 。 在 虚拟 化 世界 中 ,通常 把 提供 虚拟 化 能 力 的 物理 计 
算 机 称 为 宿主 机 (Host Machine) ,而 把 在 虚拟 化 环境 中 运行 的 计算 机 称 为 客户 机 (Guest 
Machine) 。 宿 主机 和 客户 机 虽然 运行 在 同样 的 硬件 上 ,但 是 它们 在 逻辑 上 却 是 完全 隔 
离 的 。 

这 些 虚 拟 计算 机 (以 及 物理 计算 机 ?在 逻辑 上 是 完全 隔离 的 ,拥有 各 自 独立 的 软 、 硬 件 
环境 。 讨论 计算 虚拟 化 ,所 涉及 的 计算 机 仅 包 含 构 成 一 个 最 小 计算 单位 所 需 的 部 件 , 其 中 
包括 处 理 器 (CPU) 和 内 存 , 不 包含 任何 可 选 的 外 接 设备 (例如 ,主板 、 硬 盘 、 网 卡 、 显 卡 、 声 
卡 等 ) 。 

计算 虚拟 化 是 大 数据 处 理 不 可 缺少 的 支撑 技术 ,其 作用 体现 在 提高 设备 利用 率 、 提 高 
系统 可 靠 性 .解决 计算 单元 管理 问题 等 方面 。 将 大 数据 应 用 运行 在 虚拟 化 平台 上 ,可 以 充 
分 享受 虚拟 化 带 来 的 管理 红利 。 例 如 ,虚拟 化 可 以 支持 对 虚拟 机 的 快照 (Snapshot) 操 作 ， 
从 而 使 得 备份 和 恢复 变 得 更 加 简单 .透明 和 高 效 。 此 外 .虚拟 机 还 可 以 根据 需要 动态 迁移 
到 其 他 物理 机 上 ,这 一 特性 可 以 让 大 数据 应 用 享受 高 可 靠 性 和 容错 性 。 

虚拟 机 (Virtual Machine, VM) 是 对 物理 计算 机 功能 的 一 种 软件 模拟 (部 分 或 完全 
的 ), 其 中 的 虚拟 设备 在 硬件 细节 上 可 以 独立 于 物理 设备 。 虚 拟 机 的 实现 目标 通常 是 可 
以 在 其 中 不 经 修改 地 运行 那些 原本 为 物理 计算 机 设计 的 程序 。 通 常情 况 下 ,多 台 虚 拟 机 
可 以 共存 于 一 台 物 理 机 上 ,以 期 获得 更 高 的 资源 使 用 率 以 及 降低 整体 的 费用 。 虚 拟 机 之 
间 是 互相 独立 、 完 全 隔离 的 。 

虚拟 机 管理 器 (虚拟 机 管理 程序 , Virtual Machine Monitor, VMM) ,通常 又 称 为 
Hypervisor, 是 在 宿主 机 上 提供 虚拟 机 创建 和 运行 管理 的 软件 系统 或 固件 。Hypervisor 
可 以 归纳 为 两 个 类 型 : 原生 的 Hypervisor 和 托管 的 Hypervisor。 前 者 直接 运行 在 硬件 
上 去 管理 硬件 和 虚拟 机 ,常见 的 有 XenServer、KVM、VMware ESX/ESXi 和 微软 的 
Hyper-V。 后 者 则 运行 在 常规 的 操作 系统 上 ,作为 二 层 的 管理 软件 存在 ,而 客户 机 相对 硬 
件 来 说 则 是 在 第 三 层 运 行 ,常见 的 有 VMware Workstation 和 Virtual Box。 


93 大 数据 存储 


关于 大 数据 ,最 容易 想到 的 便 是 其 数据 量 之 庞大 ,如 何 高 效 地 保存 和 管理 这 些 海量 数 
据 是 存储 面临 的 首要 问题 。 此 外 ,大 数据 还 有 诸如 种 类 结构 不 一 、 数 据 源 杂 多 、 增 长 速度 
快 . 存 取 形 式 和 应 用 需求 多 样 化 等 特点 。 

存储 虚拟 化 最 通俗 的 理解 就 是 对 一 个 或 者 多 个 存储 硬件 资源 进行 抽象 ,提供 统一 的 、 
更 有 效率 的 全 面 存储 服务 。 从 用 户 的 角度 来 说 ,存储 虚拟 化 就 像 一 个 存储 的 大 池子 ,用 户 
看 不 到 ,也 不 需要 看 到 后 面 的 磁盘 、 磁 带 , 也 不 必 关 心 数据 是 通过 哪 条 路 径 存 储 到 硬件 
上 的 。 

存储 虚拟 化 有 两 大 分 类 : 块 虚拟 化 (Block Virtualization) 和 文件 虚拟 化 (File 
Virtualization) 。 块 虚拟 化 就 是 将 不 同 结构 的 物理 存储 抽象 成 统一 的 逻辑 存储 。 这 种 抽 
象 和 隔离 可 以 让 存储 系统 的 管理 员 为 终端 用 户 提供 更 灵活 的 服务 。 文 件 虚拟 化 则 是 帮助 
用 户 ,使 其 在 一 个 多 节点 的 分 布 式 存储 环境 中 ,再 也 不 用 关心 文件 的 具体 物理 存储 位 
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置 了 。 
9.3.1 传统 存储 系统 时 代 


计算 机 的 外 部 存储 系统 如 果 从 1956 年 IBM 造 出 第 一 块 硬盘 算 起 ,发 展 至 今 已 经 有 
半 个 多 世纪 了 。 在 这 半 个 多 世纪 里 ,存储 介质 和 存储 系统 都 取得 了 很 大 的 发 展 和 进步 。 
当时 ,IBM 为 RAMAC 305 系统 造 出 的 第 一 块 硬盘 只 有 5MB 的 容量 ,而 成 本 却 高 达 
50 000 美元 ,平均 每 MB 存储 需要 10 000 美元 。 而 现在 的 硬盘 容量 可 高 达 几 个 TB, 成 本 
则 降 至 差不多 8 美 分 /GB。 

目前 传统 存储 系统 主要 的 三 种 架构 ,包括 DAS、NAS 和 SAN。 

(1) DAS(Direct-Attached Storage, 直 连 式 存储 )。 

顾名思义 ,这 是 一 种 通过 总 线 适 配器 直接 将 硬盘 等 存储 介质 连接 到 主机 上 的 存储 方 
式 , 在 存储 设备 和 主机 之 间 通 常 没有 任何 网 络 设备 的 参与 。 可 以 说 DAS 是 最 原始 .最 基 
本 的 存储 架构 方式 ,在 个 人 计算 机 、 服 务 器 上 也 最 为 常见 。DAS 的 优势 在 于 架构 简单 、 成 
本 低廉 、 读 写 效 率 高 等 ;缺点 是 容量 有 限 、 难 于 共享 ,从 而 容易 形成 “信息 孤岛 ”。 

(2) NAS(Network-Attached Storage, 网 络 存储 系统 ) 。 

NAS 是 一 种 提供 文件 级 别 访问 接口 的 网 络 存储 系统 ,通常 采用 NFS、SMB/CIFS 等 
网 络 文件 共享 协议 进行 文件 存 取 。N AS 支持 多 客户 端 同时 访问 ,为 服务 器 提供 了 大 容 
量 的 集中 式 存 储 ,从 而 也 方便 了 服务 器 间 的 数据 共享 。 

(3) SAN(Storage Area Network ,存储 区 域 网 络 ) 。 

通过 光纤 交换 机 等 高 速 网 络 设备 在 服务 器 和 磁盘 阵列 等 存储 设备 间 搭 设 专门 的 存储 
网 络 , 从 而 提供 高 性 能 的 存储 系统 。 

SAN 与 NAS 的 基本 区 别 . 在 于 其 提供 块 (Block) 级 别 的 访问 接口 .一 般 并 不 同时 提 
供 一 个 文件 系统 。 通 常情 况 下 ,服务 器 需要 通过 SCSI 等 访问 协议 将 SAN 存储 映射 为 本 地 
磁盘 、 在 其 上 创建 文件 系统 后 进行 使 用 。 目 前 主流 的 企业 级 NAS 或 SAN 存储 产品 一 般 都 
可 以 提供 TB 级 的 存储 容量 ,当然 高 端的 存储 产品 也 可 以 提供 高 达 几 个 PB 的 存储 容量 。 


9.3.2 大 数据 时 代 的 新 挑战 


相对 于 传统 的 存储 系统 ,大 数据 存储 一 般 与 上 层 的 应 用 系统 结合 得 更 紧密 。 很 多 新 
兴 的 大 数据 存储 都 是 专门 为 特定 的 大 数据 应 用 设计 和 开发 的 ,比如 专门 用 来 存放 大 量 图 
片 或 者 小 文件 的 在 线 存 储 , 或 者 支持 实时 事务 
的 高 性 能 存储 等 。 因 此 ,不 同 的 应 用 场景 ,其 
底层 大 数据 存储 的 特点 也 不 尽 相 同 ( 图 9-4) 。 
但 是 ,结合 当前 主流 的 大 数据 存储 系统 ,可 以 
总 结 出 如 下 一 些 基 本 特点 。 


1. 大 容量 及 高 可 扩展 性 


9 = 大 数据 的 主要 来 源 包括 社交 网 站 、 个 人 信 
图 9-4 存储 系统 息 、 科 学 研究 数据 、 在 线 事务 、 系 统 日 志 以 及 传 
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感 和 监控 数据 等 。 各 种 应 用 系统 源源 不 断 地 产生 着 大 量 数据 ,尤其 是 社交 类 网 站 的 兴起 ， 
更 加 快 了 数据 增长 的 速度 。 大 数据 一 般 可 达到 几 个 PB 甚至 EB 级 的 信息 量 ,传统 的 
NAS 或 SAN 存储 一 般 很 难 达到 这 个 级 别 的 存储 容量 。 因 此 ,除了 巨大 的 存储 容量 外 ,大 
数据 存储 还 必须 拥有 一 定 的 可 扩容 能 力 。 扩 容 包括 Scale-up 和 Scale-out 两 种 方式 。 鉴 
于 前 者 扩容 能 力 有 限 且 成 本 一 般 较 高 ,因此 能 够 提供 Scale-out 能 力 的 大 数据 存储 已 经 成 
为 主流 趋势 。 


2 高 可 用 性 


对 于 大 数据 应 用 和 服务 来 说 ,数据 是 其 价值 所 在 。 因 此 ,存储 系统 的 可 用 性 至 关 重 
要 。 平 均 无 故障 时 间 C(MTTF) 和 平均 维修 时 间 C(MTTR) 是 衡量 存储 系统 可 用 性 的 两 个 
主要 指标 。 传 统 存 储 系统 一 般 采 用 RAID、 数 据 通道 元 余 等 方式 保证 数据 的 高 可 用 性 和 
高 可 靠 性 。 除 了 这 些 传统 的 技术 手段 外 ,大 数据 存储 还 会 采用 其 他 一 些 技术 。 比 如 ,分 布 
式 存储 系统 中 多 采用 简单 明了 的 多 副本 来 实现 数据 宛 余 ; 针 对 RAID 导致 的 数据 元 余 率 
过 高 或 者 大 容量 磁盘 的 修复 时 间 过 长 等 问题 ,近年 来 学 术 界 和 工业 界 研究 或 采用 了 其 他 
的 编码 方式 。 


3 高 性 能 


在 考量 大 数据 存储 性 能 时 ,吞吐 率 、 延 时 和 IOPS 是 其 中 几 个 较为 重要 的 指标 。 对 了 
一 些 实 时 事务 分 析 系 统 ,存储 的 响应 速度 至 关 重 要 ;而 在 其 他 一 些 大 数据 应 用 场景 中 ,每 
秒 处 理 的 事务 数 则 可 能 是 最 重要 的 影响 因素 。 大 数据 存储 系统 的 设计 往往 需要 在 大 容 
量 、 高 可 扩展 性 、 高 可 用 性 和 高 性 能 等 特性 间 做 出 一 个 权衡 。 


4 安全 性 


大 数据 具有 巨大 的 潜在 商业 价值 ,这 也 是 大 数据 分 析 和 数据 挖掘 兴起 的 重要 原因 之 
一 。 因 此 ,数据 安全 对 于 企业 来 说 至 关 重 要 。 数 据 的 安全 性 体现 在 存储 如 何 保证 数据 完 
整 性 和 持久 化 等 方面 。 在 云 计算 ` 云 存储 行业 风 生 水 起 的 大 背景 下 ,如 何在 多 租户 环境 中 
保护 好 用 户 隐私 和 数据 安全 成 了 大 数据 存储 面临 的 一 个 有 咪 待 解决 的 新 挑战 。 


5 自 管理 和 自修 复 


随 着 数据 量 的 增加 和 数据 结构 的 多 样 化 .大 数据 存储 的 系统 架构 也 变 得 更 加 复杂 , 管 
理 和 维护 便 成 了 一 大 难题 。 这 个 问题 在 分 布 式 存储 中 尤其 突出 ,因此 ,能 够 实现 自我 管 
理 、 监 测 及 自我 修复 将 成 为 大 数据 存储 系统 的 重要 特性 之 一 。 


6 成 本 


大 数据 存储 系统 的 成 本 包括 存储 成 本 、 使 用 成 本 和 维护 成 本 等 。 如 何 有 效 降低 单位 
存储 给 企业 带 来 的 成 本 问题 ,在 大 数据 背景 下 显得 极为 重要 。 如 果 大 数据 存储 的 成 本 降 
不 下 来 , 动 轰 几 个 TB 或 者 PB 的 数据 量 将 会 让 很 多 中 小 型 企业 在 大 数据 掘 的 浪潮 中 望 洋 
兴叹 。 
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了 访问 接口 的 多 样 化 


同一 份 数据 可 能 会 被 多 个 部 门 、 用 户 或 者 应 用 来 访问 、 处 理 和 分 析 。 不 同 的 应 用 系统 
由 于 业务 不 同 可 能 会 采用 不 同 的 数据 访问 方式 。 因 此 ,大 数据 存储 系统 需要 提供 多 种 接 
口 来 支持 不 同 的 应 用 系统 。 


9.3.3 分 布 式 存储 


大 数据 导致 了 数据 量 的 爆发 式 增 长 ,传统 的 集中 式 存 储 ( 比 如 NAS 或 SAN) 在 容量 
和 性 能 上 都 无 法 较 好 地 满足 大 数据 的 需求 。 因 此 ,具有 优秀 的 可 扩展 能 力 的 分 布 式 存储 
成 为 大 数据 存储 的 主流 架构 方式 。 分 布 式 存储 多 采用 普通 的 硬件 设备 作为 基础 设施 , 因 
此 ,单位 容量 的 存储 成 本 也 得 到 大 大 降低 。 另 外 ,分 布 式 存储 在 性 能 、 维 护 性 和 容 灾 性 等 
方面 也 具有 不 同 程度 的 优势 。 

分 布 式 存储 系统 需要 解决 的 关键 技术 问题 包括 诸如 可 扩展 性 、 数 据 宛 余 、 数 据 一 臻 
性 、 全 局 命名 空间 、 缓 存 等 ,从 架构 上 来 讲 , 大 体 上 可 以 将 分 布 式 存储 分 为 C/S(Client/ 
Server) 架 构 和 P2P(Peer-to-Peer) 架 构 两 种 。 当 然 ,: 也 有 一 些 分 布 式 存储 中 会 同时 存在 这 
两 种 架构 方式 。 

分 布 式 存储 面临 的 另外 一 个 共同 问题 ,就 是 如 何 组 织 和 管理 成 员 节点 ,以 及 如 何 建 立 
数据 与 节点 之 间 的 映射 关系 。 成 员 节 点 的 动态 增加 或 者 离开 ,在 分 布 式 系统 中 基本 上 可 
以 算是 一 种 常态 。 

Eric Brewer 于 2000 年 提出 的 分 布 式 系 统 设计 的 CAP 理论 指出 ,一 个 分 布 式 系统 不 
可 能 同时 保证 一 致 性 (Consistency)、 可 用 性 (Availability) 和 分 区 容忍 性 (Partition 
Tolerance) 这 三 个 要 素 。 因 此 ,任何 一 个 分 布 式 存储 系统 也 只 能 根据 其 具体 的 业务 特征 
和 具体 需求 ,最 大 地 优化 其 中 的 两 个 要 素 。 当 然 , 除 了 一 致 性 、 可 用 性 和 分 区 容忍 性 这 三 
个 维度 ,一 个 分 布 式 存储 系统 往往 会 根据 具体 业务 的 不 同 ,在 特性 设计 上 有 不 同 的 取舍 ， 
比如 ,是 否 需 要 缓存 模块 是否 支持 通用 的 文件 系统 接口 等 。 


9.3.4 去 存储 


云 存储 是 由 第 三 方 运营 商 提供 的 在 线 存 储 系统 ,比如 面向 个 人 用 户 的 在 线 网 盘 和 而 
向 企业 的 文件 、 块 或 对 象 存储 系统 等 。 云 存储 的 运营 商 负 责 数据 中 心 的 部 署 .运营 和 维护 
等 工作 ,将 数据 存储 包装 成 为 服务 的 形式 提供 给 客户 。 云 存储 作为 云 计算 的 延伸 和 重要 
组 件 之 一 ,提供 了 “ 按 需 分 配 、 按 量 计 费 ”的 数据 存储 服务 。 因 此 , 云 存储 的 用 户 不 需要 搭 
建 自己 的 数据 中 心 和 基础 架构 ,也 不 需要 关心 底层 存储 系统 的 管理 和 维护 等 工作 ,并 可 以 
根据 其 业务 需求 动态 地 扩大 或 减 小 其 对 存储 容量 的 需求 。 

云 存 储 通过 运营 商 来 集中 、 统 一 地 部 署 和 管理 存储 系统 ,降低 了 数据 存储 的 成 本 ,从 
而 也 降低 了 大 数据 行业 的 准 入 门槛 ,为 中 小 型 企业 进军 大 数据 行业 提供 了 可 能 性 。 比 如 ， 
著名 的 在 线 文件 存储 服务 提供 商 Dropbox, 就 是 基于 AWS(Amazon Web Services) 提 供 
的 在 线 存储 系统 S3 创立 起 来 的 。 在 云 存储 兴起 之 前 ,创办 类 似 于 Dropbox 这 样 的 初创 
公司 几乎 不 太 可 能 。 
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云 存 储 背 后 使 用 的 存储 系统 其 实 多 是 采用 分 布 式 架构 ,而 云 存储 因 其 更 多 新 的 应 用 
场景 ,在 设计 上 也 遇 到 了 新 的 问题 和 需求 。 比 如 , 云 存储 在 管理 系统 和 访问 接口 上 大 都 需 
要 解决 如 何 支 持 多 租户 的 访问 方式 ,而 多 租户 环境 下 就 无 可 避免 地 要 解决 诸如 安全 ,性 能 
隔离 等 一 系列 问题 。 另 外 , 云 存储 和 云 计 算 一 样 ,都 需要 解决 的 一 个 共同 难题 就 是 关于 信 
任 (Trust) 问 题 一 一 如 何 从 技术 上 保证 企业 的 业务 数据 放 在 第 三 方 存储 服务 提供 商 平台 
上 的 隐私 和 安全 ,的 确 是 一 个 必须 解决 的 技术 挑战 。 

将 存储 作为 服务 的 形式 提供 给 用 户 , 云 存储 在 访问 接口 上 一 般 都 会 秉承 简洁 易 用 的 
特性 。 比 如 ,亚马逊 的 S3 存储 通过 标准 的 HTTP、 简 单 的 REST 接口 进行 存 取 数据 ,用 
户 分 别 通过 Get、Put、Delete 等 HTTP 方法 进行 数据 块 的 获取 、 存 放 和 删除 等 操作 。 出 
于 操作 简便 方面 的 考虑 ,亚马逊 S3 服务 并 不 提供 修改 或 者 重 命名 等 操作 ;同时 ,亚马逊 
S3 服务 也 并 不 提供 复杂 的 数据 目录 结构 ,而 仅 提供 非常 简单 的 层级 关系 ;用 户 可 以 创建 
一 个 自己 的 数据 桶 (Bucket) ,而 所 有 的 数据 则 直接 存储 在 这 个 Bucket 中 。 另 外 , 云 存储 
还 需要 解决 用 户 分 享 的 问题 。 亚 马 逊 S3 存储 中 的 数据 直接 通过 唯一 的 URL 进行 访问 
和 标识 ,因此 ,只 要 其 他 用 户 经 过 授权 便 可 以 通过 数据 的 URL 进行 访问 了 。 

存储 虚拟 化 是 云 存 储 的 一 个 重要 的 技术 基础 ,是 通过 抽象 和 封装 底层 存储 系统 的 物 
理 特性 ,将 多 个 互相 隔离 的 存储 系统 统一 化 为 一 个 抽象 的 资源 池 的 技术 。 通 过 存储 虚拟 
化 技术 , 云 存 储 可 以 实现 很 多 新 的 特性 。 比 如 ,用 户 数据 在 多 辑 上 的 隔离 .存储 空间 的 精 
简 配置 等 。 


9.3.5 大 数据 存储 的 其 他 需求 
1. 去 重 


数据 快速 增长 是 数据 中 心 最 大 的 挑战 。 显 而 易 见 ,爆炸 式 的 数据 增长 会 消耗 巨大 的 
存储 空间 ,迫使 数据 提供 商 去 购买 更 多 的 存储 ,然而 却 未 必 能 赶 上 数据 的 增长 速度 。 这 里 
有 几 个 相关 问题 值得 考虑 : 产生 的 数据 是 不 是 都 被 生产 系统 循环 使 用 ? 如 果 不 是 ,是 不 
是 可 以 把 这 些 数 据 放 到 廉价 的 存储 系统 中 ? 怎么 让 数据 备份 消耗 的 存储 更 低 ? 怎么 让 备 
份 的 时 间 更 快 ? 数据 备份 后 能 保存 的 时 间 有 和 多久 (物理 介质 原因 )? 备份 后 的 数据 能 不 能 
正常 取出 ? 

数据 去 重大 概 可 以 分 为 基于 文件 级 别 的 去 重 和 基于 数据 块 级 别 的 去 重 。 一 般 来 讲 ， 
数据 切 成 Chunk 有 两 种 分 类 : 定 长 (Fixed Size) 和 变 长 (Variable Size) 。 所 谓 定 长 就 是 把 
一 个 接收 到 的 数据 流 或 者 文件 按照 相同 的 大 小 切 分 ,每 个 Chunk 都 有 一 个 独立 的 “ 指 
纹 ”。 从 实现 角度 来 讲 , 定 长 文件 的 切片 实现 和 管理 比较 简单 ,但 是 数据 去 重复 的 比率 较 
低 。 这 也 是 容易 理解 的 ,因为 每 个 Chunk 在 文件 中 都 有 固定 的 偏 移 。 但 是 在 最 坏 情 况 
下 ,如 果 某 个 文件 在 文件 开始 新 增加 或 者 减少 一 个 字符 ,将 导致 所 有 Chunk 的 “指纹 ”发 
生变 化 。 最 差 的 结果 是 : 备份 两 个 仅 差 一 个 字符 的 文件 ,导致 重复 数据 删除 率 等 于 零 。 
这 显然 是 不 可 接受 的 。 为 此 , 变 长 Chunk 技术 应 运 而 生 , 它 不 是 简单 地 根据 文件 偏 移 来 
划分 Chunk, 而 是 根据 *Anchor”( 某 个 标记 ) 来 对 数据 分 片 。 由 于 找 的 是 特殊 的 标记 ,而 
不 是 数据 的 偏 移 , 因 此 能 完美 地 解决 定 长 Chunk 中 由 于 数据 偏 移 略 有 变化 而 导致 的 低 数 
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据 去 重 比 率 。 
2 分 层 存 储 


众所周知 ,性 能 好 的 存储 介质 往往 价格 也 很 高 。 如 何 通 过 组 合 高 性 能 、 高 成 本 的 小 容 
量 存 储 介 质 和 低 性 能 、 低 成 本 的 大 容量 存储 介质 ,使 其 达到 性 能 、 价 格 、 容 量 及 功能 上 的 最 
大 优化 ,这 是 一 个 经 典 的 存储 问题 了 。 比 如 ,计算 机 系统 上 通过 从 外 部 存储 (比如 硬盘 等 ) 
到 内 存 、 缓 存 等 一 系列 存储 介质 组 成 的 存储 金字 塔 ,很 好 地 解决 了 CPU 的 数据 访问 瓶颈 
问题 。 分 层 存储 是 存储 系统 领域 试图 解决 类 似 问 题 的 一 个 技术 手段 。 近 年 来 ,各 种 新 存 
储 介质 的 诞生 ,给 存储 系统 带 来 了 新 的 希望 ,尤其 是 Flash 和 SSD(Solid-State Drive) 存 
储 技术 的 成 熟 及 其 量化 生产 ,使 其 在 存储 产品 中 得 到 越 来 越 广泛 的 使 用 。 然 而 ,企业 存 
储 , 尤 其 是 大 数据 存储 ,全 部 使 用 SSD 作为 存储 介质 ,其 成 本 依然 是 一 个 大 问题 。 

为 了 能 够 更 好 地 发 挥 新 的 存储 介质 在 读 、 写 性 能 上 的 优势 ,同时 将 存储 的 总 体 成 本 控 
制 在 可 接受 的 范围 之 内 ,分 层 存储 系统 便 应 运 而 生 。 分 层 存储 系统 集 SSD 和 硬盘 等 存储 
媒介 于 一 体 ,通过 智能 监控 和 分 析 数 据 的 访问 “热度 ”, 将 不 同 热度 的 数据 自动 适时 地 动态 
迁移 到 不 同 的 存储 介质 上 。 经 常 被 访问 的 数据 将 被 迁移 到 读 、 写 性 能 好 的 SSD 存储 上 ， 
不 常 被 访问 的 数据 则 会 被 存放 在 性 能 一 般 且 价格 低廉 的 硬盘 矩阵 上 。 这 样 ,分 层 存储 系 
统 在 保证 不 增加 太 多 成 本 的 前 提 下 ,大 大 地 提高 了 存储 系统 的 读 、 写 性 能 。 


94 网 络 虚拟 化 


网 络 虚拟 化 ,简单 来 讲 是 指 把 逻辑 网 络 从 底层 的 物理 网 络 分 离开 来 ,包括 网 卡 的 虚拟 
化 、 网 络 的 虚拟 接 人 技术 、 履 盖 网 络 交换 ,以 及 软件 定义 的 网 络 等 。 这 个 概念 的 产生 已 经 
比较 入 了 ,VLAN、VPN、VPLS 等 都 可 以 归 为 网 络 虚拟 化 的 技术 。 近 年 来 , 云 计算 的 浪潮 
席卷 IT 界 。 几 乎 所 有 的 IT 基础 构架 都 在 朝 着 云 的 方向 发 展 。 在 云 计算 的 发 展 中 ,虚拟 
化 技术 一 直 是 重要 的 推动 因素 。 作 为 基础 构架 .服务 器 和 存储 的 虚拟 化 已 经 发 展 得 有 声 
有 色 ,而 同 作为 基础 构架 的 网 络 却 还 是 一 直 沿 用 老 的 套路 。 在 这 种 环境 下 ,网 络 确实 期 待 
一 次 变革 ,使 之 更 加 符合 云 计算 和 互联 网 发 展 的 需求 。 

在 云 计算 的 大 环境 下 ,网 络 虚拟 化 的 定义 没有 变 ,但 是 其 包含 的 内 容 却 大 大 增加 了 
(例如 动态 性 、 多 租户 模式 等 )。 网 络 虚 拟 化 涉及 的 技术 范围 相当 宽泛 ,包括 网 卡 的 虚拟 
化 、 虚 拟 交换 技术 网络 虚拟 接 人 技术 覆盖 网 络 交 换 , 以 及 软件 定义 的 网 络 ,等 等 。 


9.4.1 网 卡 虚拟 化 


多 个 虚拟 机 共享 服务 器 中 的 物理 网 卡 ,需要 一 种 机 制 既 能 保证 I/O 的 效率 ,又 能 保 
证 多 个 虚拟 机 对 用 物理 网 卡 共享 使 用 。L/O 虚拟 化 的 出 现 就 是 为 了 解决 这 类 问题 。1/O 
虚拟 化 包括 从 CPU 到 设备 的 一 揽 子 解决 方案 。 

从 CPU 的 角度 看 ,要 解决 虚拟 机 访问 物理 网 卡 等 I/O 设备 的 性 能 问题 ,能 做 的 就 是 
直接 支持 虚拟 机 内 存 到 物理 网 卡 的 DMA 操作 。Intel 的 VT-d 技术 及 AMD 的 IOMMU 
技术 通过 DMA Remapping 机 制 来 解决 这 个 问题 。DMA Remapping 机 制 主要 解决 了 两 
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个 问题 ,一 方面 为 每 个 VM 创建 了 一 个 DMA 保护 域 并 实现 了 安全 的 隔离 , 另 一 方面 提供 
一 种 机 制 是 将 虚拟 机 的 物理 地 址 翻译 为 物理 机 的 物理 地 址 。 

从 虚拟 机 对 网 卡 等 设备 访问 的 角度 看 ,传统 虚拟 化 的 方案 是 虚拟 机 通过 Hypervisor 
来 共享 地 访问 一 个 物理 网 卡 ,Hypervisor 需要 处 理 多 虚拟 机 对 设备 的 并 发 访问 和 隔离 
等 。 具 体 的 实现 方式 是 通过 软件 模拟 多 个 虚拟 网 卡 (完全 独立 于 物理 网 卡 ), 所 有 的 操作 
都 在 CPU 与 内 存 进行 。 这 样 的 方案 满足 了 多 租户 模式 的 需求 ,但 是 牺牲 了 整体 的 性 能 ， 
因为 Hypervisor 很 容易 形成 一 个 性 能 瓶颈 。 为 了 提高 性 能 ,一 种 做 法 是 虚拟 机 绕 过 
Hypervisor 直接 操作 物理 网 卡 ,这 种 做 法 通常 称 为 PCI pass through,VMware、XEN 和 
KVM 都 支持 这 种 技术 。 但 这 种 做 法 的 问题 是 虚拟 机 通常 需要 独占 一 个 PCI 搬 槽 ,不 是 
一 个 完整 的 解决 方案 ,成 本 较 高 且 扩 展 性 不 足 。 

最 新 的 解决 方案 是 物理 设备 (如 网 卡 ) 直 接 对 上 层 操作 系统 或 Hypervisor 提供 虚拟 
化 的 功能 ,一 个 以 太 网 卡 可 以 对 上 层 软 件 提供 多 个 独立 的 虚拟 的 PCIe 设备 并 提供 虚拟 
通道 来 实现 并 发 访问 ;这 些 虚 拟 设备 拥 有 各 自 独立 的 总 线 地 址 ,从 而 可 以 提供 对 虚拟 机 
I/O 的 DMA 支持 。 这 样 一 来 ,CPU 得 以 从 繁重 的 IO 中 解放 出 来 ,能 够 更 加 专注 于 核 
心 的 计算 任务 (例如 大 数据 分 析 ) 。 这 种 方法 也 是 业界 主流 的 做 法 和 发 展 方向 ,目前 已 经 
形成 了 标准 。 
9.4.2 虚拟 交换 机 

在 虚拟 化 的 早期 阶段 , 申 于 物理 网 卡 并 不 具备 为 多 个 虚拟 机 服务 的 能 力 , 为 了 将 同一 
物理 机 上 的 多 台 虚 拟 机 接 人 网 络 , 引 入 了 一 个 虚拟 交换 机 (Virtual Switch) 的 概念 。 通 常 
也 称 为 软件 交换 机 ,以 区 别 于 硬件 实现 的 网 络 交换 机 。 虚 拟 机 通过 虚拟 网 片 接 人 到 虚拟 
交换 机 ,然后 通过 物理 网 卡 外 连 到 外 部 交换 机 ,从 而 实现 了 外 部 网 络 接 入 .例如 VMware 
vSwitch( 图 9-5) 就 属于 这 一 类 技术 。 
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图 9-5 VMware vSwitch 结构 图 


这 样 的 解决 方案 也 带 来 一 系列 的 问题 。 首 先 .一 个 很 大 的 顾虑 就 是 性 能 问题 ,因为 所 
有 的 网 络 交换 都 必须 通过 软件 模拟 。 研 究 表明 : 一 个 接 入 10 一 15 台 虚 拟 机 的 软件 交换 
机 ,通常 需要 消耗 10% 一 15% 的 主机 计算 能 力 ; 随 着 虚拟 机 数量 的 增长 ,性 能 问题 无 疑 将 
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更 加 严重 。 其 次 ,由 于 虚拟 交换 机 工作 在 二 层 ,无 形 中 也 使 得 二 层 子 网 的 规模 变 得 更 大 。 
更 大 的 子 网 意味 着 更 大 的 广播 域 ,对 性 能 和 管理 来 说 都 是 不 小 的 挑战 。 最 后 ,由 于 越 来 越 
多 的 网 络 数据 交换 在 虚拟 交换 机 内 进行 ,传统 的 网 络 监 控 和 安全 管理 工具 无 法 对 其 进行 
管理 ,也 意味 着 管理 和 安全 的 复杂 性 大 大 增加 了 。 


9.4.3 接 人 层 的 虚拟 化 


在 传统 的 服务 器 虚拟 化 方案 中 ,从 虚拟 机 的 虚拟 网 卡 发 出 的 数据 包 在 经 过 服务 器 的 
物理 网 片 传送 到 外 部 网 络 的 上 联 交 换 机 后 ,虚拟 机 的 标识 信息 被 屏蔽 掉 了 ,上 联 交 换 机 只 
能 感知 从 某 个 服务 器 的 物理 网 卡 流出 的 所 有 流量 ,而 无 法 感知 服务 器 内 某 个 虚拟 机 的 流 
量 , 这 样 就 不 能 从 传统 网 络 设备 层面 来 保证 服务 质量 和 安全 隔离 。 虚 拟 接 入 要 解决 的 问 
题 是 要 把 虚拟 机 的 网 络 流量 纳入 传统 网 络 交 换 设备 的 管理 之 中 ,需要 对 虚拟 机 的 流量 做 
标识 。 


9.4.4 团 盖 网 络 虚 拟 化 


虚拟 网 络 并 不 是 全 新 的 概念 ,事实 上 我 们 熟知 的 VLAN 就 是 一 种 已 有 的 方案 。 
VLAN 的 作用 是 在 一 个 大 的 物理 二 层 网 络 里 划分 出 多 个 互相 隔离 的 虚拟 三 层 网 络 ,这 个 
方案 在 传统 的 数据 中 心 网 络 中 得 到 了 广泛 的 应 用 。 这 里 就 引出 了 虚拟 网 络 的 第 一 个 需 
求 : 隔离 。VLAN 虽然 很 好 地 解决 了 这 个 需求 ,然而 由 于 内 在 的 缺陷 ,VLAN 无 法 满足 
第 二 个 需求 , 即 可 扩展 性 (支持 数量 庞大 的 虚拟 网 络 )。 随 着 云 计 算 的 兴起 ,一 个 数据 中 心 
需要 支持 上 百 万 的 用 户 , 每 个 用 户 需 要 的 子 网 可 能 也 不 止 一 个 。 在 这 样 的 需求 背景 下 ， 
VLAN 已 经 远 远 不 甫 使 用 ,需要 重新 思考 虚拟 网 络 的 设计 与 实现 。 当 虚拟 数据 中 心 开 始 
普及 后 ,其 本 身 的 一 些 特 性 也 带 来 对 网 络 新 的 需求 。 物 理 机 的 位 置 一 般 是 相对 固定 的 , 虚 
拟 化 方案 的 一 个 很 大 的 特性 在 于 虚拟 机 可 以 迁移 。 当 迁移 发 生 在 不 同 网 络 、 不 同 数据 中 
心 之 间 时 ,对 网 络 产生 了 新 的 要 求 ,比如 需要 保证 虚拟 机 的 IP 在 迁移 前 后 不 发 生 改 变 , 需 
要 保证 虚拟 机 内 运行 的 应 用 程序 在 迁移 后 仍 可 以 跨越 网 络 和 数据 中 心 进行 通信 等 。 这 又 
引出 了 虚拟 网 络 的 第 三 个 需求 : 支持 动态 迁移 。 

覆盖 网 络 虚拟 化 就 是 应 以 上 需求 而 生 的 , 它 可 以 更 好 地 满足 云 计 算 和 下 一 代数 据 中 
心 的 需求 , 它 为 用 户 虚拟 化 应 用 带 来 了 许多 好 处 (特别 是 对 大 规模 的 、 分 布 式 的 数据 处 
理 ) ,包括 : 四 虚拟 网 络 的 动态 创建 与 分 配 ; @ 虚 拟 机 的 动态 迁移 ( 跨 子 网 . 跨 数据 中 心 ); 
图 一 个 虚拟 网 络 可 以 跨 多 个 数据 中 心 ; 四 将 物理 网 络 与 虚拟 网 络 的 管理 分 离 ; 回 安全 
(逻辑 抽象 与 完全 隔离 ) 。 


9.4.5 软件 定义 的 网 络 


OpenFlow 和 SDN 尽管 不 是 专门 为 网 络 虚拟 化 而 生 :但 是 它们 带 来 的 标准 化 和 灵活 
性 却 给 网 络 虚拟 化 的 发 展 带 来 无 限 可 能 。OpenFlow 起 源 于 斯 坦 福 大 学 的 Clean Slate 项 
目 组 ,其 目的 是 要 重新 发 明 因特网 , 旨 在 改变 现 有 的 网 络 基础 架构 。2006 年 ,斯 坦 福 的 学 
生 Martin Casado 领导 的 Ethane 项 目 , 试 图 通过 一 个 集中 式 的 控制 器 ,让 网 络 管理 员 可 
以 方便 地 定义 基于 网 络 流 的 安全 控制 策略 ,并 将 这 些 安全 策略 应 用 到 各 种 网 络 设备 中 ,从 
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而 实现 对 整个 网 络 通信 的 安全 控制 。 受 此 项 目 启 发 ,研究 人 员 发 现 如果 将 传统 网 络 设备 
的 数据 转发 (Data Plane) 和 路 由 控制 (Control Plane) 两 个 功能 模块 相 分 离 ,通过 集中 式 的 
控制 器 (Controller) 以 标准 化 的 接口 对 各 种 网 络 设备 进行 管理 和 配置 ,这 将 为 网 络 资源 的 
设计 管理 和 使 用 提供 更 多 的 可 能 性 ,从 而 更 容易 推动 网 络 的 革新 与 发 展 。 

OpenFlow 可 能 的 应 用 场景 包括 : 四 校园 网 络 中 对 实验 性 通信 协议 的 支持 ; 四 网 络 
管理 和 访问 控制 ; 四 网 络 隔离 和 VLAN; @ 基 于 WiFi 的 移动 网 络 ; @ 非 IP 网 络 ; @ 基 
于 网 络 包 的 处 理 。 


9.4.6 对 大 数据 处 理 的 意义 


相对 于 普通 应 用 ,大 数据 的 分 析 与 处 理 对 网 络 有 着 更 高 的 要 求 ,涉及 从 带宽 到 延 时 ， 
从 吞吐 率 到 负载 均衡 ,以 及 可 靠 性 、 服 务 质量 控制 等 方方面面 。 同 时 随 着 越 来 越 多 的 大 数 
据 应 用 部 署 到 云 计 算 平 台中 ,对 虚拟 网 络 的 管理 需求 就 越 来 越 高 。 首 先 ,网 络 接 人 设备 虚 
拟 化 的 发 展 ,在 保证 多 租户 服务 模式 的 前 提 下 ,还 能 同时 兼顾 高 性 能 与 低 延 时 、 低 CPU 
占用 率 。 其 次 , 接 人 层 的 虚拟 化 保证 了 虚拟 机 在 整个 网 络 中 的 可 见 性 ,使 得 基于 虚拟 机 粒 
度 ( 或 大 数据 应 用 粒度 ) 的 服务 质量 控制 成 为 可 能 。 获 盖 网 络 的 虚拟 化 ,一 方面 使 得 大 数 
据 应 用 能 够 得 到 有 效 的 网 络 隔离 ,更 好 地 保证 了 数据 通信 的 安全 ; 另 一 方面 也 使 得 应 用 的 
动态 迁移 更 加 便捷 ,保证 了 应 用 的 性 能 和 可 靠 性 。 软 件 定义 的 网 络 更 是 从 全 局 的 视角 来 
重新 管理 和 规划 网 络 资源 ,使 得 整体 的 网 络 资源 利用 率 得 到 优化 利用 。 总 之 ,网 络 虚拟 化 
技术 通过 对 性 能 、 可 靠 性 和 资源 优化 利用 的 贡献 ,间接 提高 了 大 数据 系统 的 可 靠 性 和 运行 
效率 。 


95 数据 即 服 务 


数据 即 服务 (Data as a Service,DaaS) 是 一 个 跨越 大 数据 基础 设施 和 应 用 的 领域 。 过 
去 的 公司 一 般 先 获得 大 数据 集 , 然 后 再 使 用 一 一 通常 难以 获得 当前 数据 ,或 从 互联 网 上 得 
到 即时 数据 。 但 是 现在 ,出 现 了 各 种 各 样 的 数据 即 服 务 供应 商 , 例 如 , 邓 白 氏 公司 为 金融 、 
地 址 以 及 其 他 形式 的 数据 提供 网 络 编程 接口 , 费 埃 哲 公 司 (FICO) 提 供 财务 信息 , 推 特 为 
其 推 文 提供 访问 权限 ,等 等 。 


9.5.1 数据 应 用 


这 样 的 数据 源 允 许 他 人 在 其 基础 上 建立 有 趣 的 应 用 程序 ,而 这 些 应 用 程序 可 以 用 于 
准确 预测 总 统 选举 结果 ,或 了 解 消 费 者 对 品牌 的 感觉 。 也 有 公司 提供 垂直 式 、 具 体 的 数据 
即 服务 ,例如 ,在 线 数据 拍卖 平台 BlueKai 公司 提供 与 消费 者 资料 相关 的 数据 ,交通 吉 驶 
服务 系统 供应 商 Inrix 公司 提供 交通 数据 . 律 商 联 讯 公司 提供 法 律 数据 等 。 


9.5.2 数据 清理 
使 用 大 数据 的 领域 中 ,最 乏味 的 大 概 就 是 数据 清理 和 集成 了 ,但 它 却 十 分 关键 。 内 部 
和 外 部 数据 以 各 种 格式 存储 ,并 且 还 包括 错误 和 重复 的 记录 。 这 样 的 数据 需要 经 常 清理 
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才 可 以 使 用 (或 是 实现 多 个 数据 源 一 起 使 用 )。 像 企业 数据 集成 解决 方案 提供 商 
Information 这 样 的 公司 早 就 在 这 个 领域 里 发 挥 作 用 了 。 

就 最 简单 的 水 平 而 言 ,数据 清理 涉及 的 任务 包括 删除 重复 记录 和 使 地 址 字段 正常 化 。 
展望 未 来 ,数据 清理 很 可 能 成 为 一 项 基于 云 计算 的 服务 。 


9.5.3 数据 保密 


随 着 人 们 将 更 多 的 数据 转移 到 云 中 ,并 将 自己 的 信息 更 多 地 公布 到 网 上 ,人 们 对 于 数 
据 保密 的 关注 也 与 日 俱 增 。 尽 管 匿名 数据 往往 无 保密 性 可 言 , 但 据 一 项 研究 显示 ,分 析 师 
们 能 够 看 到 电影 观赏 的 匿名 数据 ,并 通过 评价 用 户 张 贴 在 互联 网 电影 数据 库 上 的 影评 ,来 
确定 哪 位 用 户 观看 了 哪 部 电影 。 在 最 近 几 个 月 里 ,Facebook 已 经 加 强 了 对 用 户 分 享 信息 
的 控制 。 

在 未 来 ,可 能 出 现 这 样 的 大 数据 应 用 程序 : 不 仅 让 人 们 自己 决定 分 享 何 种 数据 ,也 帮 
助人 们 了 解 分 享 个 人 信息 背后 的 隐藏 含义 一 一 无 论 那 些 信息 对 我 们 是 否 进行 了 个 人 
识别 。 


96 云 的 挑战 


当然 ,许多 人 仍然 对 能 否 利用 公共 云 基础 设施 持 有 怀疑 。 过 去 ,这 项 服务 一 直 存 在 着 
:个 潜在 问题 : 

(1) 企业 觉得 这 项 服务 不 安全 。 内 部 基础 设施 被 认为 更 有 保障 。 

(2) 许多 大 供应 商 根 本 不 提供 软件 的 互联 网 / 云 版 本 。 公 司 必须 购买 硬件 ,自行 运行 
软件 或 者 雇用 第 三 方 做 这 件 事 。 

(3) 难以 将 大 量 数据 从 内 部 系统 中 提取 出 来 . 存 入 云 中 。 

虽然 第 一 个 挑战 对 于 某 些 政府 机 构 来 说 确实 存在 ,但 确 有 从 事 云 存储 服务 的 企业 证 
实 他 们 能 安全 存储 许多 公司 的 机 密 数 据 , 网 上 提供 的 越 来 越 多 的 类 似 应 用 程序 也 正 逐 渐 
为 企业 所 接受 。 

许多 专家 认为 ,对 于 真正 的 海量 数据 来 说 , 源 于 公司 内 部 部 署 的 数据 仍 会 保存 在 原 
处 , 源 于 云 中 的 数据 也 是 如 此 。 但 是 随 着 越 来 越 多 的 业务 线 应 用 程序 在 网 上 实现 应 用 ,也 
会 有 越 来 越 多 的 数据 在 云 中 生成 ,并 保存 在 云 中 。 

借助 大 数据 ,公司 获得 了 许多 其 他 优势 : 他 们 花费 在 维护 和 部 署 硬件 和 软件 上 的 时 
间 变 少 了 ,可 以 按 需 进 行 扩 张 。 如 果 有 公司 需要 扩大 计算 资源 或 存储 量 ,就 不 需要 耗费 数 
月 时 间 ,而 只 是 分 秒 之 间 的 事情 。 有 了 网 上 的 应 用 程序 ,其 最 新 版 本 一 经 开放 用 户 就 可 以 
立刻 使 用 了 。 虽 然 公 司 的 花费 受 其 选择 的 公共 云 供应 商 控制 ,但 云 供应 商 之 间 的 竞争 不 
断 推动 价格 下 降 ,顾客 也 依赖 这 些 供应 商 提供 可 靠 的 服务 。 

在 计算 虚拟 化 ,存储 虚拟 化 和 网 络 虚拟 化 解决 了 云 计 算 的 基本 问题 之 后 ,如 何 提高 云 
计算 的 安全 性 ,成 为 云 计算 中 的 一 个 重要 课题 。 
事实 上 , 几 次 大 的 云 计 算 安 全 事故 也 确实 给 产业 界 敲 响 了 警钟 。 
亚马逊 曾 遭 遇 过 一 些 重大 的 服务 中 断 事故 ,当时 备 受 瞩目 。 其 中 一 次 事故 造成 在 线 
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影片 供应 商 Netflix 在 2012 年 平安 夜 和 圣诞 节 当 天 服务 中 断 , 而 那 时 正 是 观看 电影 的 传 
统 高 峰 期 。 

(1) 2011 年 11 月 ,Facebook 遭遇 黑客 攻击 , 数 百 万 用 户 账户 被 病毒 人 侵 , 导 致 用 户 
在 不 知情 的 情况 下 分 享 了 色情 和 暴力 图 片 。 

(2) 2011 年 4 月 , 云 计 算 服 务 提 供 商 亚 马 逊 公司 爆 出 了 重大 宕 机 事件 。 北 弗吉尼亚 
州 的 云 计算 中 心 宕 机 导致 了 包括 回答 服务 Quora、 新 闻 服 务 Reddit 和 位 置 跟踪 服务 
FourSquare 在 内 的 一 些 网 站 受到 了 影响 。 

(3) 2011 年 3 月 ,Google 邮箱 再 次 爆发 大 规模 的 用 户 数据 泄漏 事件 ,大 约 有 15 万 
Gmail 用 户 在 周 日 早上 发 现 自己 的 所 有 邮件 和 聊天 记录 被 删除 ,部 分 用 户 发 现 自己 的 账 
户 被 重 置 ,Google 表示 受到 该 问题 影响 的 用 户 约 为 用 户 总 数 的 0. 08%。 

(4) Rackspace 在 2009 年 全 年 遭遇 了 4 次 引 人 瞩 目的 断 网 故障 ,使 该 公司 客户 的 断 
网 时 间 达 到 几 个 小 时 。Rackspace 不 得 不 向 用 户 赔 偿 了 将 近 三 百 万 美元 的 服务 费 。 
Rackspace 把 这 些 事故 称 作 “ 痛 苗 的 和 非常 令 人 失望 的 ”, 并 且 承 诺 以 后 在 很 长 时 间 里 都 
要 高 水 平地 提供 服务 。 

云 计 算 在 数据 安全 方面 引入 的 新 问题 ,譬如 在 云 计算 基础 架构 服务 层 (IaaS) ,主要 
有 : @ 新 的 安全 问题 ,诸如 信任 问题 ( 特 指 租 客 和 云 服 务 商 之 间 ) ,多 租 客 之 间 的 资源 隔离 
问题 ; @ 对 已 有 的 安全 攻击 ,IaaS 是 否 更 容易 被 攻击 ? 或 者 存在 新 的 技术 方法 去 避免 这 
些 攻 击 。 

安全 问题 中 的 信任 和 隔离 问题 , 源 于 云 计算 的 新 模型 。 在 云 计算 基础 架构 层 , 虚 拟 化 
技术 由 于 在 资源 整合 、 利 用、 管理 等 方面 的 优势 ,成 为 IaaS 中 不 可 缺少 的 一 部 分 。 一 般 来 
讲 , 管 理 计 算 资 源 的 不 再 是 操作 系统 ,取而代之 的 是 虚拟 机 监控 器 (Virtual Machine 
Monitor, VMM)。 由 于 资源 使 用 者 和 管理 者 角色 的 分 离 ,衍生 出 IaaS 使 用 者 和 IaaS 提 
供 者 之 间 的 信任 问题 。 云 资源 的 使 用 者 称 为 云 租户 ,比如 ,一 个 小 型 公司 租赁 了 亚马逊 的 
EC2 服务 (主要 指 虚拟 机 ) ,并 在 EC2 上 搭建 了 一 个 网 站 ,那么 这 个 公司 就 是 亚马逊 EC2 
的 租户 ,而 使 用 网 站 的 用 户 只 是 这 个 小 公司 的 客户 。 由 于 资源 不 由 租 客 完全 控制 ,那么 租 
客 就 有 疑问 : 怎么 确定 租赁 的 资源 仅仅 为 我 所 用 ,而 不 被 其 他 租 客 或 者 云 管理 员 非 法 使 
用 ,导致 数据 的 丢失 或 者 泄漏 。 可 见 ,数据 隐私 保护 是 非常 重要 的 。 

隐私 保护 .数据 备份 .灾难 恢复 .病毒 防范 、 多 点 服务 .数据 加 密 、 虚 拟 机 隔离 等 ,这 些 
都 是 云 安全 的 研究 课题 。 


【延伸 阅读 】 
PaaS 市 场 迎 来 小 风口 .最 终 还 是 巨头 之 多 


提 及 云 计算 , 离 不 开 三 个 名 词 : IaaS( 基 础 架构 即 服务 )、SaaS( 软 件 即 服务 )、PaaS( 平 
台 即 服务 ) 。 

IaaS 提供 计算 能 力 和 存储 能 力 , 相 当 于 一 个 云 上 的 服务 器 ,用 户 能 够 在 其 基础 上 部 
署 和 运行 任意 软件 ,比如 阿里 云 支撑 着 “12306”75% 的 查询 业务 。SaaS 直接 提供 软件 服 
务 , 通 过 互联 网 即 可 使 用 相关 软件 应 用 ,不 需要 本 地 安装 ,比如 人 们 所 熟悉 的 搜索 、 邮 箱 、 
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各 类 企业 管理 系统 等 。 而 PaaS 则 提供 软件 运行 的 平台 环境 ,在 平台 上 针对 开发 者 提供 
服务 ,使 开发 者 能 够 快速 获得 某 一 能 力 , 比 如 网 易 云 信 支 持 着 众多 APP 的 即时 通信 功能 ， 
热门 的 视频 直播 功能 也 可 以 通过 网 易 视 频 云 轻松 搭建 等 。 

三 种 模式 中 ,作为 基础 的 IaaS 起 步 最 早 , 在 中 国 发 展 最 为 完善 ,阿里 云 、. 腾 讯 云 、 盛 
大 、 华 为 等 已 经 占据 优势 地 位 。 而 作为 未 来 发 展 方向 的 PaaS 虽然 2009 年 就 已 经 在 中 国 
出 现 ,但 至 今 仍 处 于 发 展 初 期 ,市 场 认 知 度 较 低 。 据 艾 瑞 网 统计 ,2014 年 我 国 云 计 算 整 体 
市 场 规模 约 为 1174 亿 ,PaaS 仅 占 4.11”。 也 正 是 因为 当下 最 弱 , 所 以 相对 于 已 成 气候 的 
IaaS 和 SaaS,PaaS 最 具有 发 展 潜 力 。 

尤其 2015 年 以 来 , 随 着 国家 对 “互联 网 十 ”和 “万 众 创业 ”的 扶持 倡导 ,新 形式 的 互联 
网 产品 和 APP 极速 增加 ,加 上 阿里 腾讯、 网 易 为 代表 的 巨头 入 局 带 来 的 技术 突破 ,PaaS 
模式 的 云 计 算 很 可 能 将 在 2016 年 迎 来 一 个 小 风口 ,进入 快速 发 展期 。 


PaaS 售卖 技术 , 带 来 新 的 创业 空间 


一 个 商业 模式 能 不 能 火 、 有 没有 发 展 前 景 首先 取决 于 它 的 逻辑 一 一 它 解 决 了 什么 问 
题 ,当下 有 没有 这 种 需求 。PaaS 模式 的 云 计算 服务 于 B 端 客户 的 价值 点 在 于 ,其 使 得 互 
联网 产品 能 够 通过 其 服务 快速 集成 各 种 功能 ,就 像 拼接 积木 一 样 容易 ， 即时 通信 模块 来 
自 PaaS 供应 商 A, 统 计 模 块 来 自 供应 商 B, 推 送 模块 来 自 C,LBS 模块 来 自 D…… 包括 后 
期 运 维 服 务 都 可 以 交 给 相关 PaaS 平台 。 

PaaS 的 出 现 从 某 种 程度 上 促进 了 互联 网 产品 .APP 的 开发 进入 社会 化 分 工时 代 , 不 
再 要 求 开发 者 是 一 个 全 能 人 才 ( 事 实 上 这 也 越 来 越 难以 做 到 ) ,也 不 需要 CTO 招聘 好 所 
有 模块 的 工程 师 , 从 而 缩减 人 力 、 时 间 成 本 。 

拿 一 个 电 商 APP 来 说 ,需要 的 功能 大 概 涉及 : 用 户 模 块 (注册 、 登 录 )、 商 品 展示 模块 
(商品 信息 、 图 片 资源 存储 ) 、 搜 索 (语音 搜索 、 图 片 识别 )、 购 买 系统 (支付 )、 广 告 系统 ( 闪 屏 
广告 .Banner 广告 )、 客 服 系 统 (即时 通信 、 机 器 人 客服 ) 等 。 在 PaaS 服务 普及 之 前 ,这 些 
都 需要 找 不 同 的 程序 员 , 每 一 项 都 需要 人 员 手 动 写 代码 ,耗费 大 量 精 力 ,也 未 必 能 完成 。 
而 在 如 今 的 云端 时 代 , 作 为 一 个 企业 的 CTO, 只 需要 成 为 一 个 有 眼光 和 视野 的 PaaS 技术 
“采购 员 ” 即 可 。 

至 于 PaaS 供应 商 如 何 做 到 ,以 时 下 热门 的 即时 通信 云 服 务 为 例 , 多 数 运营 商 通过 将 
即时 通信 技术 封装 成 SDK 供 APP 开发 者 下 载 使 用 ,并 向 开发 者 提供 平台 环境 、 技 术 支 持 
以 及 后 期 运 维 等 服务 , 即 可 使 开发 者 的 产品 快速 载 入 即时 通信 的 能 力 。 腾 讯 云 通 信 、 网 易 
云 信 等 大 佬 ,以 及 融 云 、 环 信 等 创业 型 产品 均 是 这 种 模式 。 

这 种 技术 公共 化 的 企业 服务 迎合 了 当下 的 互联 网 创业 潮 , 同 时 带 来 新 的 创业 空间 。 
根据 IT 桔子 的 数据 ,截止 到 2015 年 10 月 31 日 ,其 追踪 到 的 企业 级 服务 创业 公司 共有 
259 家 ,其 中 在 当年 获 投 的 有 56 家 , 占 比 22%。 而 经 纬 中 国 的 数据 显示 ,2014 年 中 国 to 
B 领域 营 收 过 亿 元 级 别 的 创业 公司 只 有 一 家 ,到 了 2015 年 已 经 超过 了 10 家 。 

同时 ,不 少 互联 网 巨头 也 开始 留意 到 越 来 越 细 分 的 领域 ,腾讯 、 阿 里 除了 针对 大 型 客 
户 的 主 业务 IaaS, 近 两 年 也 有 不 少 PaaS 技术 开放 。 

比如 腾讯 信 忽 (推送 ) 、 微 信 的 企业 号 (移动 办 公 ), 阿 里 的 钉 钉 (移动 办 公 ) 悟空 (即时 
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通信 ) 等 ,其 中 钉 钉 甚至 投入 了 5 亿 元 进行 品牌 宣传 。 而 网 易 自 去 年 推出 网 易 云 信 ( 即 时 
通信 云 服务 ) 以 来 ,2016 年 还 首次 发 布 了 “网 易 云 战略 ”, 在 几 大 细 分 领域 进军 企业 服务 市 
场 : 视频 云 . 云 客服 (网 易 七 鱼 )、Docker 容积 云 (网 易 蜂 策 )、 移 动 APP 兼容 测试 (网 易 云 
测 )、 大 数据 应 用 开发 管理 平台 (网 易 猛 独 ) 等 。 网 易 云 计算 以 PaaS 为 主 ,估计 是 为 了 与 
以 IaaS 为 主 的 腾讯 .阿里 展开 差异 化 竞争 。 


巨头 发 力 ,PaaS 市 场 认 知 度 迅速 提升 


近年 来 PaaS 念 见 重 直 化 ,其 覆盖 领域 不 可 谓 不 广泛 。 可 以 看 出 ,目前 国内 的 PaaS 
模式 云 计 算 创 业 公 司 众 多 ,巨头 只 选择 了 即时 通信 、 推 送 、 视 频 \ 支 付 等 少数 热门 领域 
作为 试 水 ,尚未 完全 切入 。 而 国内 PaaS 市 场 之 所 以 弱小 ,和 巨头 们 的 迟 迟 发 力 有 很 大 

事实 上 ,尽管 该 领域 已 经 涌 进 来 不 少 创业 公司 ,但 PaaS 一 直 被 视 为 是 巨头 的 游戏 ， 
作为 中 间 层 ,PaaS 需要 屏蔽 底层 基础 架构 的 千差万别 ,又 要 为 上 层 SaaS 应 用 提供 灵活 标 
准 的 开发 接口 ,这 不 仅 需要 巨大 的 投入 ,更 需要 超 强 的 技术 实力 ,门槛 之 高 成 为 创业 公司 
发 展 壮大 、 维 持 性 能 稳定 的 障碍 。 

同时 , 介 于 此 前 国内 市 场 对 PaaS 的 认 知 度 不 够 , 早 于 巨头 进入 的 创业 公司 拓展 起 来 
也 很 艰难 。Analysys 易 观 智库 2015 年 年 底 发 布 的 (2015 年 中 国 PaaS 领域 开发 者 服务 市 
场 实力 矩阵 专题 研究 报告 ) 认 为 ,中 国 PaaS 领域 内 开发 者 服务 在 中 国 移动 互联 网 应 用 中 
渗透 率 不 高 ,一 则 在 于 没有 大 的 品牌 形成 ,二 则 创业 产品 对 市 场 的 影响 力 有 限 。 

到 了 2014 年 ,大 的 公司 才 有 所 作为 。 当 年 ,阿里 云 开始 推出 “ 云 合计 划 ”, 招募 万 家 云 
服务 商 ,试图 形成 聚合 效应 ,制造 声势 ,对 抗 国际 IT 巨头 对 国内 市 场 的 委 食 ;2015 年 , 腾 
讯 云 推出 “ 云 十 计划 ”, 从 服务 创业 者 和 政府 企业 等 行业 用 户 的 角度 ,通过 创业 扶持 计划 ， 
致力 打造 国内 第 一 大 云 生 态 圈 ;到 了 2016 年 ,网 易 也 拿 出 了 类 似 腾 讯 的 一 个 “ 易 启 计划 ”， 
同样 是 吸纳 开发 者 ,创业 者 ,形成 联盟 ,以 便 实现 技术 共享 ,对 接 投 资 。 三 大 巨头 对 云 计算 
的 布局 以 及 推广 策略 ,加 上 互联 网 十 概念 的 传播 ,吸引 了 不 少 客户 ,从 此 也 把 PaaS 服务 
推 向 互联 网 创业 市 场 。 

另外 有 一 个 因素 不 能 不 提 , 以 Docker 为 代表 的 容器 技术 的 成 熟 极 大 加 速 了 PaaS 的 
开发 进程 ,使 得 PaaS 平台 搭建 成 本 大 幅 降 低 。 可 以 预见 ,PaaS 云 服务 的 快速 发 展 最 终 还 
是 要 捆绑 在 巨头 身上 。 


PaaS 市 场 将 有 多 大 ,未 来 还 有 哪些 机 会 ? 


知名 咨询 机 构 IDC 的 调查 数据 显示 ,预计 到 2017 年 时 ,全 球 PaaS 市 场 将 达到 140 
亿美 元 ,年 复合 增长 率 达 到 30 中 。 其 整体 上 升 主要 与 亚太 市 场 的 兴起 有 关 , 预 计 亚 太 市 
场 占 比 将 从 14.1% 增 长 到 17%。IDC 将 爆发 式 增长 归功 于 人 们 对 PaaS 解决 方案 的 接受 
程度 提升 ,以 及 过 去 几 年 PaaS 厂商 对 市 场 的 渗透 工作 。 

与 IaaS 不 同 ,PaaS 供应 商 的 客户 主要 来 源 于 中 小 企业 、 互 联网 创业 者 ,未 来 PaaS 平 
台 的 增长 重点 将 集中 在 社区 云 、 电 子 商 务 云 、 医 疗 云 .教育 云 . 金 融 云 的 发 展 。 对 应 BAT、 
网 易 等 巨头 在 PaaS 领域 的 布局 ,其 开发 者 云 可 以 分 为 基础 ,能 力 、 资 源 、 程 序 4 个 部 分 。 


大 数据 导论 


(1) 基础 云 : 指 部 署 网 站 、 应 用 所 需 的 基础 设施 
关 的 负载 均衡 (SLB)、CDN( 内 容 分 发 )。 

(2) 能 力 云 : 是 指 利用 自身 的 技术 、 产 品 、 运 维 等 方面 的 优势 提供 的 一 些 能 力 ,帮助 
开发 者 快速 、 低 成 本 开发 ,或 者 解决 开发 者 遇 到 的 一 些 瓶 颈 。 

(3) 资源 云 : 是 指 将 自己 的 用 户 ,流量 和 数据 这 类 资源 价值 以 云 的 方式 ,通过 API 和 
工具 提供 。 

(4) 程序 云 : 指 提供 开源 软件 或 开发 者 工具 包 供 开发 者 使 用 ,帮助 开发 者 快速 、 低 成 
本 构建 网 站 及 应 用 。 

同时 ,网 易 在 今年 的 云 战 略 中 还 提出 了 对 “新 型 云 计算 ”的 理解 : 区 别 于 传统 定义 的 
SaaS/PaaS/SaaS 这 三 层 蛋 糕 ,“ 新 型 云 计算 ”试图 从 更 为 具体 的 应 用 场景 来 定义 云 服务 ， 
诸如 研发 云 .运营 云 等。 事实 上 ,这 对 应 了 创业 公司 面临 的 困境 : 问题 越 来 越 多 样 化 ,不 
再 是 “一 键 接 入 ”的 SDK 就 能 解决 一 一 这 决定 了 云 服务 要 走向 用 户 视 角 的 支持 (比如 对 研 
发 、 测 试 、 运 营 的 某 一 环节 或 某 一 功能 ), 乃 至 通过 资源 共享 ,从 对 产品 研发 的 支持 走向 对 
非 直接 业务 功能 (HR、 财 务 、 法 务 、 行 政 等 ) 的 支持 。 阿 里 、 腾 讯 、 网 易 三 家 均 拿 出 了 针对 
创业 服务 市 场 的 合作 、 联 盟 计 划 ,与 此 有 很 大 关系 。 

从 越 来 越 重 直 的 趋势 看 ,PaaS 领域 的 创业 公司 还 有 很 多 蛋糕 可 以 分 。 但 从 资源 共 
享 、 全 方位 支持 的 角度 看 ,PaaS 最 终 还 是 巨头 的 菜 。 

资料 来 源 : 足 亦 , 钛 媒体 ,中 云 网 ,2016-2-2 
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【实验 与 思考 】 
了 解 大 数据 的 基础 设施 
1. 实验 目的 


GD 本 解 大 数据 基础 设施 的 基本 概念 ; 
(2) 了 解 虚 拟 化 的 重要 思想 ,了 解 计算 虚拟 化 ,存储 虚拟 化 和 网 络 虚拟 化 的 具体 
内 容 ; 
(3) 了 解 云 计 算 的 基本 思想 和 主要 内 容 , 了 解 云 计算 与 大 数据 的 关系 。 


2. 工具 /准备 工作 

在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
需要 准备 一 台 带 有 浏览 器 .能够 访问 因特网 的 计算 机 。 
3. 实验 内 容 与 步骤 


(1) 请 结合 查阅 相关 文献 资料 ,为 “ 云 计算 ”给 出 一 个 权威 性 的 定义 。 
答 


合 : 


菊 回 图 内 区 甩 面 于 吉 


这 个 定义 的 来 源 是 : 

(2) 请 简 述 云 计 算 的 三 种 服务 形式 。 
答 : 

Jaas : 


Paas : 


Saas : 


(3) 请 结合 课文 和 相关 文献 资料 , 简 述 什么 是 虚拟 化 技术 。 
答 : 


(4) PaaS( 平 台 即 服务 ) 是 云 计算 中 最 为 重要 的 一 个 类 型 ,请 简 述 PaaS 的 三 个 主要 
答 : 
平台 即 服务 : 


平台 即 服务 : 


平台 即 服务 : 


(5) 请 结合 课文 和 相关 文献 资料 . 简 述 什么 是 “ 云 存储 ”。 
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(6) 请 结合 课文 和 相关 文献 资料 , 简 述 网 络 虚拟 化 对 大 数据 处 理 的 意义 。 
答 : 


4. 实验 总 结 


5. 实验 评价 (教师 ) 


Cub” 2 


支撑 大 数据 的 技术 


【导读 案例 】 
Qoudera 领衔 大 数据 基础 设施 


由 于 Hadoop 深 受 客户 欢迎 ,许多 公司 都 推出 了 各 自 版 本 的 Hadoop, 也 有 一 些 公司 
则 围绕 Hadoop 开发 产品 。 在 Hadoop 生态 系统 中 ,规模 最 大 、 知名度 最 高 的 公司 则 是 
Cloudera( 图 10-1) 。Cloudera 是 由 来 自 Facebook 谷歌 和 雅虎 的 前 工程 师 杰 夫 。 哈 默 巴 
切 、 克 里 斯 托 弗 。 比 塞 格 利 亚 、 埃 姆 。 阿 瓦 达 拉 以 及 现任 CEO、 甲 骨 文 前 高 管 迈克 。 奥 尔 
森 在 2008 年 创建 的 。Cloudera 主 营 销售 工具 和 咨询 服务 ,帮助 其 他 公司 运行 Hadoop。 


cloudera 选择 cloudera 的 理由 产品 最 务 及 支持 ”解决 方案 入门 


题 


六 数据 驱动 业 多 
Forrester Wave™: 以 数据 昧 动 业 务 


Big Data Hadoop | 企业 用 户 > ET eR 
Distributions Q1 nn 以 现代 化 的 数据 管理 和 分 析 平台 推动 企业 向 前 发 
2016 


Get the Report 》 开发 人 员 > 
利用 最 新 的 开源 工具 在 Apact op 上 构建 大 数据 应 用 


IT 专业 人 士 > 
发 展 僻 的 技能 并 制定 您 下 一 个 卓越 的 数据 香 理 策略 


现代 化 数据 症 理 和 分 析 平 台 ， 加 入 
真 : 改善 客户 体验 让 改善 客户 体 


10-1 Cloudera 


为 克 鸭 局 抄 


2004 年 谷歌 首先 发 表 了 一 篇 论文 ,在 文中 描述 了 Google MapReduce 和 Google File 
System 而 Hadoop 也 正 是 从 中 受到 启发 而 建立 起 来 的 。 这 正好 显示 了 大 数据 技术 需要 
花费 很 长 时 间 才 能 融入 企业 中 。Cloudera 的 竞争 对 手 HortonWorks 则 是 从 雅虎 分 离 出 
来 的 。HortonWorks 的 工程 师 为 Apache Hadoop 贡献 的 代码 超过 80%。MapR 则 专注 
于 借助 其 M5 服务 提供 Hadoop 的 高 性 能 版 本 ,尝试 解决 Hadoop 最 大 的 难题 : 处 理 数 据 
所 需 的 漫长 等 待 。 

在 这 些 公司 向 企业 提供 Hadoop 服务 和 支持 的 同时 ,其 他 公司 正 积极 向 云端 传送 
Hadoop。Qubole、Nodeable 及 Platfora 是 云端 Hadoop 领域 的 三 家 公司 。 对 于 这 些 公司 
来 说 , 源 自 本 土 大 数据 云 处 理 服务 的 挑战 将 日 益 西 显 , 例 如 亚马逊 自身 的 MapReduce 
服务 。 

Hadoop 的 设计 目的 在 于 对 超大 数据 集 进行 分 布 式 处 理 , 其 中 工程 师 们 设计 作业 , 作 
业 再 传输 到 数 百 或 数 千 台 服务 器 ,然后 将 单独 的 结果 汇总 回收 才能 产生 实际 结果 。 举 一 
个 简单 的 例子 ,一 项 Hadoop MapReduce 作业 就 是 用 于 计算 各 种 文档 中 词 出 现 的 数量 。 
如 果 文 档 数 量 达 数 百 万 之 巨 , 就 难以 在 一 台 机 器 上 完成 。Hadoop 将 该 项 作业 分 解 为 每 
台 机 器 都 能 完成 的 小 片段 ,再 将 每 项 单独 计算 作业 的 结果 合 在 一 起 ,就 生成 了 最 后 的 计算 
结果 。 

而 挑战 就 是 运行 这 些 作 业 会 消耗 许多 时 间 一 这 对 实时 数据 查询 而 言 不 甚 理想 。 对 
于 Hadoop 的 改进 ,如 Cloudera Impala 项 目 承 诺 让 Hadoop 变 得 更 加 灵敏 ,不 仅 体 现在 
分 布 式 处 理 上 ,也 要 在 接近 实时 的 分 析 应 用 上 有 所 反映 。 当 然 这 些 创 新 也 使 Cloudera 成 
为 当前 大 型 分 析 或 数据 仓库 供应 商 的 理想 收购 目标 (上 市 前 后 ) ,包括 IBM、 甲 骨 文 以 及 
其 他 的 潜在 买 家 。 

阅读 上 文 , 请 思考 、 分 析 并 简单 记录 : 

(1) 请 通过 网 络 搜索 ,进一步 了 解 Cloudera 公司 ,并 做 简单 描述 。 

答 : 


(2) 除了 Cloudera, 你 还 知道 哪些 领衔 大 数据 基础 设施 的 公司 ? 其 中 属于 中 国 的 公 
司 主要 有 哪些 ? 
符 


全 : 


(3) 文中 为 什么 说 :“ 大 数据 技术 需要 花费 很 长 时 间 才 能 融入 企业 中 ”? 
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(4) 请 简单 描述 你 所 知道 的 上 一 周 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
答 : 


101 开源 技术 的 商业 支援 


在 大 数据 生态 系统 中 ,基础 设施 主要 负责 数据 存储 以 及 处 理 公 司 掌握 的 海量 数据 。 
应 用 程序 则 是 指 人 类 和 计算 机 系统 通过 使 用 这 些 程序 ,从 数据 中 获知 关键 信息 。 人 们 使 
用 应 用 程序 使 数据 可 视 化 ,并 由 此 做 出 更 好 的 决策 ;而 计算 机 则 使 用 应 用 系统 将 广告 投放 
到 合适 的 人 群 ,或 者 监测 信用 卡 欺诈 行为 。 

在 大 数据 的 演变 中 ,开源 软件 起 到 了 很 大 的 作用 。 如 今 ,Linux 已 经 成 为 主流 操作 系 
统 , 并 与 低 成 本 的 服务 器 硬件 系统 相 结 合 。 有 了 Linux. 企 业 就 能 在 低 成 本 硬件 上 使 用 开 
源 操作 系统 ,以 低 成 本 获得 许多 相同 的 功能 。MySQL 开源 数据 库 、Apache 开源 网 络 服 
务 器 以 及 PHP 开源 脚本 语言 (最 初 为 创建 网 站 开发 ) 搭 配 起 来 的 实用 性 也 推动 了 Linux 
的 普及 。 

随 着 越 来 越 多 的 企业 将 Linux 大 规模 地 用 于 商业 用 途 , 他 们 期 望 获得 企业 级 的 商业 
支持 和 保障 。 在 众多 的 供应 商 中 ,红帽子 Linux(Red Hat) 脱 颖 而 出 ,成 为 Linux 商业 支 
持 及 服务 的 市 场 领导 者 。 甲 骨 文 公司 (Oracle) 也 购并 了 最 初 属于 瑞典 MySQL AB 公司 
的 开源 MySQL 关系 数据 库 项 目 。 

IBM.、 甲 骨 文 以 及 其 他 公司 都 在 将 他 们 所 拥有 的 大 型 关系 型 数据 库 商 业 化 。 关 系 型 
数据 库 使 数据 存储 在 自 定义 表 中 ,再 通过 一 个 密码 进行 访问 。 例 如 ,一 个 雇员 可 以 通过 一 
个 雇员 编号 认定 ,然后 该 编号 就 会 与 包含 该 雇员 信息 的 其 他 字段 相 联 系 他 的 名 字 、 地 
址 .雇用 日 期 及 职位 等 。 本 来 这 样 的 结构 化 数据 库 还 是 可 以 适用 的 ,直到 公司 不 得 不 解决 
大 量 的 非 结 构 化 数据 。 比 如 谷歌 必须 处 理 海 量 网 页 以 及 这 些 网 页 链接 之 间 的 关系 ,而 
Facebook 必须 应 付 社 交 图 谱 数据 。 社 交 图 谱 是 其 社交 网 站 上 人 与 人 之 间 关 系 的 数字 表 
示 社交 图 谱 上 每 个 点 末端 连接 所 有 非 结 构 化 数据 .例如 照片 .信息 、 个 人 档案 等 。 因 
此 ,这 些 公司 也 想 利用 低 成 本 商用 硬件 。 

于 是 , 像 谷 歌 .雅虎 、Facebook 以 及 其 他 这 样 的 公司 开发 出 各 自 的 解决 方案 ,以 存储 
和 处 理 大 量 的 数据 。 正 如 UNIX 的 开源 版 本 和 甲骨 文 的 数据 库 以 Linux 和 MySQL 这 样 
的 形式 应 运 而 生 一 样 , 大 数据 世界 里 有 许多 类 似 的 事物 在 不 断 涌现 。 

Apache Hadoop 是 一 个 开源 分 布 式 计算 平台 ,通过 Hadoop 分 布 式 文件 系统 
(Hadoop Distributed File System, HDFS) 存 储 大 量 数据 ,再 通过 名 为 MapReduce 的 编程 
模型 将 这 些 数 据 的 操作 分 成 小 片段 。Apache Hadoop 源 自 谷歌 的 原始 创建 技术 ,随后 ， 
开发 了 一 系列 围绕 Hadoop 的 开源 技术 。Apache Hive 提供 数据 仓库 功能 ,包括 数据 抽 
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取 、 转 换 、 装 载 (ETL) ,即将 数据 从 各 种 来 源 中 抽取 出 来 ,再 实行 转换 以 满足 操作 需要 ( 包 
括 确保 数据 质量 ) ,然后 装载 到 目标 数据 库 。Apache HBase 则 提供 处 于 Hadoop 顶部 的 
海量 结构 化 表 的 实时 读 写 访问 功能 , 它 仿照 了 谷歌 的 BigTable。 同 时 ,Apache Cassandra 
通过 复制 数据 来 提供 容错 数据 存储 功能 。 

在 过 去 ,这 些 功能 通常 只 能 从 商业 软件 供应 商 处 依靠 专门 的 硬件 获取 。 开 源 大 数据 
技术 正在 使 数据 存储 和 处 理 能 力 一 一 这 些 本 来 只 有 像 谷 歌 或 其 他 商用 运营 商 之 类 的 公司 
才 具 备 的 能 力 , 在 商用 硬件 上 也 得 到 了 应 用 。 这 样 就 降低 了 使 用 大 数据 的 先期 投入 ,并 且 
具备 了 使 大 数据 接触 到 更 多 潜在 用 户 的 潜力 。 

开源 软件 在 开始 使 用 时 是 免费 的 ,这 使 其 对 大 多 数 人 颇具 吸引 力 , 从 而 使 一 些 商 用 运 
营 商 采 用 免费 增值 的 商业 模式 参与 到 竞争 当中 。 产 品 在 个 人 使 用 或 有 限 数 据 的 前 提 下 是 
免费 的 ,但 顾客 需要 在 之 后 为 部 分 或 大 量 数据 的 使 用 付费 。 久 而 久之 ,采用 开源 技术 的 这 
些 企业 往往 需要 商业 支援 ,一 如 当初 使 用 Linux 碰 到 的 情形 。 像 Cloudera、HortonWorks 
及 MapR 这 样 的 公司 在 为 Hadoop 解决 这 种 需要 的 同时 ,类 似 DataStax 的 公司 也 在 为 非 
关系 型 数据 库 (Ccassandra) 做 着 同样 的 事情 ,LucidWorks 之 于 Apache Lucerne 也 是 如 此 
(后 者 是 一 种 开源 搜索 解决 方案 ,用 于 索引 并 搜索 大 量 网 页 或 文件 ) 。 


102 大 数据 的 技术 架构 


要 容纳 数据 本 身 ,IT 基础 架构 必须 能 够 以 经 济 的 方式 存储 比 以 往 更 大 量 、 类 型 更 多 
的 数据 。 此 外 ,还 必须 能 适应 数据 变化 的 速度 。 由 于 数量 如 此 大 的 数据 难以 在 当今 的 网 
络 连 接 条 件 下 快速 移动 ,因此 .大 数据 基础 架构 必须 分 布 计算 能 力 , 以 便 能 在 接近 用 户 的 
位 置 进行 数据 分 析 ,减少 跨 越 网 络 所 引起 的 延迟 。 企 业 逐 渐 认 识 到 必须 在 数据 驻 留 的 位 
置 进行 分 析 , 分 布 这 类 计算 能 力 , 以 便 为 分 析 工 具 提 供 实时 响应 将 带 来 的 挑战 。 考 虑 到 数 
据 速度 和 数据 量 ,移动 数据 进行 处 理 是 不 现实 的 ,相反 ,计算 和 分 析 工 具 可 能 会 移 到 数据 
附近 。 而 且 , 云 计算 模式 对 大 数据 的 成 功 至 关 重 要 。 云 模型 在 从 大 数据 中 提取 商业 价值 
的 同时 也 能 为 企业 提供 一 种 灵活 的 选择 ,以 实现 大 数据 分 析 所 需 的 效率 、 可 扩展 性 、 数 据 
便携 性 和 经 济 性 。 

仅 存 储 和 提供 数据 还 不 够 ,必须 以 新 的 方式 合成 .分 析 和 关联 数据 ,才能 提供 商业 价 
值 。 部 分 大 数据 方法 要 求 处 理 未 经 建 模 的 数据 ,因此 ,可 以 对 毫 不 相干 的 数据 源 进 行 不 同 
类 型 数据 的 比较 和 模式 匹配 。 这 使 得 大 数据 分 析 能 以 新 视角 挖掘 企业 传统 数据 ,并 带 来 
传统 上 未 曾 分 析 过 的 数据 洞察 力 。 

基于 上 述 考虑 构建 的 适合 大 数据 的 4 层 堆 栈 式 技术 架构 ,如 图 10-2 所 示 。 

(1) 基础 层 : 第 一 层 作为 整个 大 数据 技术 架构 基础 的 最 底层 ,也 是 基础 层 。 要 实现 
大 数据 规模 的 应 用 ,企业 需要 一 个 高 度 自动 化 的 .可 横向 扩展 的 存储 和 计算 平台 。 这 个 基 
础 设施 需要 从 以 前 的 存储 孤岛 发 展 为 具有 共享 能 力 的 高 容量 存储 池 。 容 量 .性 能 和 吞吐 
量 必须 可 以 线性 扩展 。 

云 模型 鼓励 访问 数据 并 提供 弹性 资源 池 来 应 对 大 规模 问题 ,解决 了 如 何 存储 大 量 数 
据 , 以 及 如 何 积聚 所 需 的 计算 资源 来 操作 数据 的 问题 。 在 云 中 ,数据 跨 多 个 节点 调配 和 分 
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布 , 使 得 数据 更 接近 需要 它 的 用 户 , 从 而 缩短 响应 时 间 和 提高 生产 率 。 

(2) 管理 层 : 要 支持 在 多 源 数据 上 做 深层 次 的 分 析 , 大 数据 技术 架构 中 需要 一 个 管 
理 平台 ,使 结构 化 和 非 结构 化 数据 管理 融 为 一 体 ,具备 实时 传送 和 查询 ,计算 功能 。 本 层 
既 包括 数据 的 存储 和 管理 ,也 涉及 数据 的 计算 。 并 行 化 和 分 布 式 是 大 数据 管理 平台 所 必 
须 考虑 的 要 素 。 

(3) 分 析 层 : 大 数据 应 用 需要 大 数据 分 析 。 分 析 层 提供 基于 统计 学 的 数据 挖掘 和 
机 器 学 习 算 法 ,用 于 分 析 和 解释 数据 集 ,帮助 企业 获得 对 数据 价值 深入 的 领 司 。 可 扩 
展 性 强 、 使 用 灵活 的 大 数据 分 析 平 台 更 可 成 为 数据 科学 家 的 利器 ,起 到 事半功倍 的 
效果 。 

(4) 应 用 层 : 大 数据 的 价值 体现 在 帮助 企业 进行 决策 和 为 终端 用 户 提供 服务 的 应 
用 。 不 同 的 新 型 商业 需求 驱动 了 大 数据 的 应 用 。 另 一 方面 ,大 数据 应 用 为 企业 提供 的 竞 
争 优势 使 得 企业 更 加 重视 大 数据 的 价值 。 新 型 大 数据 应 用 对 大 数据 技术 不 断 提出 新 的 要 
求 ,大 数据 技术 也 因此 在 不 断 地 发 展 变化 中 日 趋 成 熟 。 


。 实 时 决策 ， 内 置 预 测 能 力 
。 数 据 驱动 ， 数 据 货币 化 


。 自 助 服务 
* 迭代、 灵活 ， 实 时 协作 


* 结构 化 数据 和 非 结 构 化 数据 
* 并 行 处 理 ， 线 性 可 扩展 性 


*。 虚拟 化 、 网 络 化 、 分 布 式 
。 横 向 可 扩展 体系 结构 


基础 层 


图 10-2 4 层 堆 栈 式 大 数据 技术 架构 
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所 谓 Hadoop ,是 以 开源 形式 发 布 的 一 种 对 大 规模 数据 进行 分 布 式 处 理 的 技术 。 特 
别 是 处 理 大 数据 时 代 的 非 结 构 化 数据 时 .Hadoop 在 性 能 和 成 本 方面 都 具有 优势 ,而 且 通 
过 横向 扩展 进行 扩容 也 相对 容易 ,因此 备 受 关注 。Hadoop 是 最 受 欢 迎 的 在 因特网 上 对 
搜索 关键 字 进 行内 容 分 类 的 工具 ,但 它 也 可 以 解决 许多 要 求 极 大 伸缩 性 的 问题 。 


10.3.1 什么 是 分 布 式 系统 


分 布 式 系统 (Distributed System ,图 10-3) 是 建立 在 网 络 之 上 的 软件 系统 。 作 为 软件 
系统 ,分布 式 系统 具有 高 度 的 内 聚 性 和 透明 性 ,因此 网 络 和 分 布 式 系统 之 间 的 区 别 更 多 的 
在 于 高 层 软 件 ( 特 别 是 操作 系统 ) ,而 不 是 硬件 。 

内 聚 性 是 指 每 一 个 数据 库 分 布 节点 高 度 自治 .有 本 地 的 数据 库 管 理 系统 。 透 明 性 是 
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指 每 一 个 数据 库 分 布 节点 对 用 户 的 应 用 来 说 都 是 透明 的 ,看 不 出 是 本 地 还 是 远程 。 在 分 
布 式 数据 库 系统 中 ,用 户 感 觉 不 到 数据 是 分 布 的 . 即 用 户 不 须知 道 关系 是 否 分 割 有 无 副 
本 数据 存 于 哪个 站 点 以 及 事务 在 哪个 站 点 上 执行 等 。 


分 布 式 系统 允许 区 域 
硬件 分 散 
H5 | 
H4 | | 
H3 D6 
D5 

H2 D4 

i | D3 
Hl D2 


Cl C34C5 06 Dl 


控制 分 散 数据 库 分 散 
图 10-3 分 布 式 系统 


在 一 个 分 布 式 系统 中 ,一 组 独立 的 计算 机 展现 给 用 户 的 是 一 个 统一 的 整体 ,就 好 像 是 
一 个 系统 似 的 。 系 统 拥 有 多 种 通用 的 物理 和 逻辑 资源 ,可 以 动态 地 分 配 任务 ,分散 的 物理 
和 逻辑 资源 通过 计算 机 网 络 实现 信息 交换 。 系 统 中 存在 一 个 以 全 局 方式 管理 计算 机 资源 
的 分 布 式 操作 系统 。 通 常 ,对 用 户 来 说 ,分 布 式 系统 只 有 一 个 模型 或 范 型 。 在 操作 系统 之 
上 有 一 层 软 件 中 间 件 负责 实现 这 个 模型 。 一 个 著名 的 分 布 式 系统 的 例子 是 万 维 网 
(World Wide Web) ,在 万 维 网 中 ,所 有 的 一 切 看 起 来 就 好 像 是 一 个 文档 (Web 页 面 ) 
一 样 。 
在 计算 机 网 络 中 ,这 种 统一 性 、 模 型 以 及 其 中 的 软件 都 不 存在 。 用 户 看 到 的 是 实际 的 
机 器 ,计算 机 网 络 并 没有 使 这 些 机 器 看 起 来 是 统一 的 。 如 果 这 些 机 器 有 不 同 的 硬件 或 者 
不 同 的 操作 系统 ,那么 ,这 些 差异 对 于 用 户 来 说 都 是 完全 可 见 的 。 如 果 一 个 用 户 和 希望 在 一 
台 远 程 机 器 上 运行 一 个 程序 ,那么 ,他 必须 登录 到 远程 机 器 上 ,然后 在 那 台 机 器 上 运行 该 

分 布 式 系统 和 计算 机 网 络 系统 的 共同 点 是 : 多 数 分 布 式 系统 是 建立 在 计算 机 网 络 
之 上 的 ,所 以 分 布 式 系统 与 计算 机 网 络 在 物理 结构 上 是 基本 相同 的 。 分 布 式 操作 系统 
的 设计 思想 和 网 络 操作 系统 是 不 同 的 .这 决定 了 它们 在 结构 .工作 方式 和 功能 上 也 
不 同 。 

网 络 操作 系统 要 求 网 络 用 户 在 使 用 网 络 资源 时 首先 必须 了 解 网 络 资源 ,网 络 用 户 
必须 知道 网 络 中 各 个 计算 机 的 功能 与 配置 .软件 资源 、 网 络 文件 结构 等 情况 ,在 网 络 中 
如 果 用 户 要 读 一 个 共享 文件 时 ,用 户 必须 知道 这 个 文件 放 在 哪 一 台 计 算 机 的 哪 一 个 目 
录 币 。 
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分 布 式 操作 系统 是 以 全 局 方式 管理 系统 资源 的 , 它 可 以 为 用 户 任意 调度 网 络 资源 ,并 
且 调 度 过 程 是 “透明 ?的 。 当 用 户 提交 一 个 作业 时 ,分 布 式 操作 系统 能 够 根据 需要 在 系统 
中 选择 最 合适 的 处 理 器 ,将 用 户 的 作业 提交 到 该 处 理 程序 ,在 处 理 器 完成 作业 后 ,将 结果 
传 给 用 户 。 在 这 个 过 程 中 ,用 户 并 不 会 意识 到 有 多 个 处 理 器 的 存在 ,这 个 系统 就 像 是 一 个 
处 理 器 一 样 。 


10.3.2 Hadoop 的 由 来 


Hadoop 的 基础 是 美国 Google 公司 于 2004 年 发 表 的 一 篇 关于 大 规模 数据 分 布 式 处 
理 的 题 为 "MapReduce: 大 集群 上 的 简单 数据 处 理 ” 的 论文 。 

Hadoop 由 Apache Software Foundation 公司 于 2005 年 秋天 作为 Lucene 的 子 项 目 
Nutch 的 一 部 分 正式 引入 。 它 受到 最 先 由 Google Lab 开发 的 Map/Reduce 和 Google 
File System(CGFS) 的 启发 。2006 年 3 月 ,Map/Reduce 和 Nutch Distributed File System 
(CNDFS) 分 别 被 纳入 称 为 Hadoop 的 项 目 中 。 

MapReduce 指 的 是 一 种 分 布 式 处 理 的 方法 ,而 Hadoop 则 是 将 MapReduce 通过 开源 
方式 进行 实现 的 框架 (Framework) 的 名 称 。 造 成 这 个 局 面 的 原因 在 于 ,Google 在 论文 中 
公开 的 仅 限于 处 理 方法 ,而 并 没有 公开 程序 本 身 。 也 就 是 说 , 提 到 MapReduce, 指 的 只 是 
一 种 处 理 方法 ,而 对 其 实现 的 形式 并 非 只 有 Hadoop 一 种 。 反 过 来 说 , 提 到 Hadoop, 则 指 
的 是 一 种 基于 Apache 授权 协议 ,以 开源 形式 发 布 的 软件 程序 。 

Hadoop 原本 是 由 三 大 部 分 组 成 的 , 即 用 于 分 布 式 存储 大 容量 文件 的 HDFS(Hadoop 
Distributed File System) ,用 于 对 大 量 数据 进行 高 效 分 布 式 处 理 的 Hadoop MapReduce 
框架 ,以 及 超大 型 数据 表 HBase。 这 些 部 分 与 Google 的 基础 技术 相对 应 (图 10-4) 。 

Google 的 基础 技术 开源 的 基础 技术 


5 Hadoop 
MapReduce Big Table MapReduce HBase 


Hadoop Distributed 
File System 
(HDFS) 


Google File System 
(GFS) 


图 10-4 ”Google 与 开源 基础 技术 的 对 应 关系 


从 数据 处 理 的 角度 来 看 , Hadoop MapReduce 是 其 中 最 重要 的 部 分 。Hadoop 
MapReduce 并 非 用 于 配备 高 性 能 CPU 和 磁盘 的 计算 机 ,而 是 一 种 工作 在 由 多 台 通 用 型 
计算 机 组 成 的 集群 上 的 ,对 大 规模 数据 进行 分 布 式 处 理 的 框架 。 

在 Hadoop 中 ,是 将 应 用 程序 细 分 为 在 集群 中 任意 节点 上 都 可 执行 的 成 百 上 千 个 工 
作 负 载 , 并 分 配给 多 个 节点 来 执行 。 然 后 ,通过 对 各 节点 瞬间 返回 的 信息 进行 重组 ,得 出 
最 终 的 回答 。 虽 然 存在 其 他 功能 类 似 的 程序 .但 Hadoop 依靠 其 处 理 的 高 速 性 脱颖而出 。 

对 Hadoop 的 运用 ,最 早 是 雅虎 、Facebook、Twitter、AOL、Netflix 等 网 络 公 司 先 开 
始 试 水 的 。 然 而 现在 ,其 应 用 领域 已 经 突破 了 行业 的 界限 ,如 摩根 大 通 、 美 国 银行 .VISA 
等 在 内 的 金融 公司 ,以 及 诺基亚 、 三 星 、GE 等 制造 业 人 公司, 沃尔玛、 迪士尼 等 零售 业 公 司 ， 
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其 至 是 中 国 移动 等 通信 业 公司 。 
与 此 同时 ,最 早 由 HDFS、Hadoop MapReduce、HBase 这 三 个 组 件 所 组 成 的 软件 架 
构 ,现在 也 衍生 出 了 多 个 子 项 目 , 其 范围 也 随 之 逐步 扩大 。 


10.3.3 Hadoop 的 优势 


Hadoop 的 一 大 优势 是 ,过 去 由 于 成 本 、 处 理 时 间 的 限制 而 不 得 不 放弃 的 对 大 量 非 结 
构 化 数据 的 处 理 ,现在 则 成 为 可 能 。 也 就 是 说 ,由 于 Hadoop 集群 的 规模 可 以 很 容易 地 扩 
展 到 PB 甚至 是 EB 级 别 ,因此 ,企业 里 的 数据 分 析 师 和 市 场 营销 人 员 过 去 只 能 依赖 抽样 
数据 来 进行 分 析 , 而 现在 则 可 以 将 分 析 对 象 扩展 到 全 部 数据 的 范围 了 。 而 且 , 由 于 处 理 速 
度 比 过 去 有 了 飞 距 性 的 提升 ,现在 我 们 可 以 进行 若干 次 重复 的 分 析 , 也 可 以 用 不 同 的 查询 
来 进行 测试 ,从 而 有 可 能 获得 过 去 无 法 获得 的 更 有 价值 的 信息 。 

Hadoop 是 一 个 能 够 对 大 量 数据 进行 分 布 式 处 理 的 软件 框架 。 但 是 Hadoop 是 以 一 
种 可 靠 ,高效 .可 伸缩 的 方式 进行 处 理 的 。Hadoop 是 可 靠 的 ,因为 它 假设 计算 元 素 和 存 
储 会 失败 ,因此 它 维 护 多 个 工作 数据 副本 ,确保 能 够 针对 失败 的 节点 重新 分 布 处 理 。 
Hadoop 是 高 效 的 ,因为 它 以 并 行 的 方式 工作 ,通过 并 行 处 理 加 快 处 理 速 度 。Hadoop 还 
是 可 伸缩 的 ,能 够 处 理 PB 级 数据 。 此 外 ,Hadoop 依赖 于 社区 服务 器 ,因此 它 的 成 本 比较 
低 ,任何 人 都 可 以 使 用 。 

Hadoop 是 一 个 能 够 让 用 户 轻 松 架 构 和 使 用 的 分 布 式 计算 平台 。 用 户 可 以 轻松 地 在 
Hadoop 上 开发 和 运行 处 理 海量 数据 的 应 用 程序 。 它 主要 具有 以 下 几 个 优点 。 

(1) 高 可 靠 性 。Hadoop 按 位 存储 和 处 理 数 据 的 能 力 值 得 人 们 信赖 。 

(2) 高 扩展 性 。Hadoop 是 在 可 用 的 计算 机 集 簇 间 分 配 数据 并 完成 计算 任务 的 ,这 些 
集 饶 可 以 方便 地 扩展 到 数 以 千 计 的 节点 中 。 

(3) 高 效 性 。Hadoop 能 够 在 节点 之 间 动 态 地 移动 数据 ,并 保证 各 个 节点 的 动态 平 
衡 , 因 此 处 理 速 度 非常 快 。 

(4) 高 容错 性 。Hadoop 能 够 自动 保存 数据 的 多 个 副本 ,并 且 能 够 自动 将 失败 的 任务 
重新 分 配 。 

Hadoop 带 有 用 Java 语言 编写 的 框架 ,因此 运行 在 Linux 平台 上 是 非常 理想 的 。 
Hadoop 上 的 应 用 程序 也 可 以 使 用 其 他 语言 编写 ,比如 C++ 。 


10.3.4 Hadoop 的 发 行 版 本 


Hadoop 软件 目前 依然 在 不 断 引 入 先进 的 功能 ,处 于 持续 开发 的 过 程 中 。 因 此 ,如 果 
想 要 享受 其 先进 性 所 带 来 的 新 功能 和 性 能 提升 等 好 处 ,在 公司 内 部 就 需要 具备 相应 的 技 
术 实 力 。 对 于 拥有 众多 先进 技术 人 员 的 一 部 分 大 型 系统 集成 公司 和 惯 于 使 用 开源 软件 的 
互联 网 公司 来 说 ,应 该 可 以 满足 这 样 的 条 件 。 

相对 地 ,对 于 一 般 企 业 来 说 ,要 运用 Hadoop 这 样 的 开源 软件 ,还 存在 比较 高 的 门槛 。 
企业 对 于 软件 的 要 求 ,不仅 在 于 其 高 性 能 ,还 包括 可 靠 性 、 稳 定性 ,安全 性 等 因素 。 然 而 ， 
Hadoop 是 可 以 免费 获取 的 软件 .一 般 公司 在 搭建 集群 环境 的 时 候 ,需要 自行 对 上 述 因 素 
做 出 担保 ,难度 确实 很 大 。 
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于 是 ,为 了 解决 这 个 问题 , Hadoop 也 推出 了 发 行 版 本 。 所 谓 发 行 版 本 
(CDistribution), 和 同 为 开源 软件 的 Linux 的 情况 类 似 , 是 一 种 为 改善 开源 社区 所 开发 的 
软件 的 易 用 性 而 提供 的 软件 包 服 务 ( 图 10-5) ,软件 包 中 通常 包括 安装 工具 ,以 及 拥 绑 事 
先 验证 过 的 一 些 周边 软件 。 


File System Mount UIFramework/SDK Data Mining 
FUFE -DFS HUE APACHE MAHOUT 
S 
局 Workflow Scheduling Metadata 
时 APACHE OOZIE APACHE OOZIE APACHE HIVE 
[| 
怠 Languages / Compilers 
时 
S Data. APACHE PIG, APACHE HIVE Pest 

3 Integration Read/Write 
| | APACHE FLUME, Access 
E|| ARACHE SOOOP Hadoop APACHE HBase 
己 
Coordination 
APACHE ZOOKEEPER 
SCM Express (Installation Wizard for CDH) 


图 10-5 ”Cloudera 公司 的 Hadoop 发 行 版 


最 先 开 始 提供 Hadoop 商用 发 行 版 的 是 Cloudera 公司 。 那 是 在 2008 年 , 当时 
Hadoop 之 父 Doug Cutting 还 任职 于 Cloudera( 后 来 担任 Apache 软件 基金 会 主席 )。 如 
今 ,Cloudera 已 经 成 为 名 副 其 实 的 Hadoop 商用 发 行 版 头 牌 厂 商 , 如 果 拿 Linux 发 行 版 来 
类 比 的 话 ,应 该 是 相当 于 Red Hat 的 地 位 。 借 助 先发制人 的 优势 ,Cloudera 与 NetUP、 戴 
尔 等 硬件 厂商 积极 开展 密切 合作 ,通过 在 他 们 的 存储 设备 和 服务 器 上 预 装 Cloudera 的 
Hadoop 发 行 版 来 扩大 自己 的 势力 范围 。 

此 后 很 长 一 段 时间 内 ,都 没有 出 现 能 够 和 Cloudera 形成 竞争 的 商用 发 行 版 厂商 ,到 
了 2010 年 以 后 ,形势 才 发 生 了 改变 。2010 年 5 月 ,IBM 发 布 了 基于 IBM Hadoop 发 行 版 
的 数据 分 析 平台 IBM InfoSphere BigInsights, 以 此 为 契机 ,在 进入 2011 年 之 后 ,这 一 领 
域 的 竞争 一 下 子 变 得 激烈 起 来 。 

目前 ,Hadoop 商用 发 行 版 主要 有 DataStax 公司 的 Brisk, 它 采用 Cassandra 代替 
HDFS 和 HBase 作为 存储 模块 ;美国 MapR Technologies 公司 的 MapR ,对 HDFS 进行 
了 改良 ,实现 了 比 开 源 版 本 Hadoop 更 高 的 性 能 和 可 靠 性 ;还 有 从 雅虎 公司 中 独立 出 来 的 
Hortonworks 公司 等 (图 10-6)。 

在 这 些 竞 争 伙 伴 中 ,尤其 值得 一 提 的 是 Hortonworks, 它 并 不 提供 自己 的 发 行 版 ,其 
主要 业务 是 提供 对 开源 版 本 Hadoop 进行 以 功能 强化 为 目的 的 后 续 开 发 和 支持 服务 , 它 
和 美国 雅虎 公司 一 起 ,对 开源 版 本 的 Hadoop 代码 开发 做 出 了 很 大 的 贡献 (图 10-7) 。 
实际 上 ,2011 年 10 月 ,微软 宣布 与 Hortonworks 联手 进行 Windows Server 版 和 
Windows Azure 版 Hadoop 的 开发 ,而 微软 曾 独自 进行 开发 的 Windows 上 类 似 Hadoop 
的 Dryad 项 目 则 同时 宣布 终止 ,表明 微软 将 集中 力量 投入 Hadoop 的 开发 工作 中 。 由 于 
这 表示 微软 默认 了 Hadoop 作为 大 规模 数据 处 理 框 架 实质 性 标准 的 地 位 ,因此 引发 了 


Cloudera/CDH : 最 早 推出 的 Hadoop 商 用 发 行 版 ， 开 发 
ClouderalCDH | 了 简化 Hadoop 集 群 维护 工作 的 集成 管理 工具 ， 以 及 一 站 

式 Hadoop 自 动 化 安装 工具 。 客户 包括 Groupon、ReckSpace 、 
ComScore、 三 星 、LinkedIn 等 。 


IBM/InforSphere BigInsights : 在 IBM 版 Apache Hadoop 


A IBM/InforSphere | 发 行 版 的 基础 上 ， 加 入 了 分 析 用 GUI BigSheets 、 用 于 
| 于 版 ) BidInsights JSON 数 据 的 查询 语言 Jaql 、 文 本 分 析 引 擎 System T、 工 
点 的 发 行 | 作 流 引擎 Orchestrator， 以 及 与 DB2 的 协作 功能 。 


MapR/M3、M5， 通 过 改良 HDFS， 
相 比 * 速 度 提高 2~5 倍 ， 可 靠 性 高 的 "”。MapR 包 括 
MapR/M3、M5 | 两 个 不 同 的 版 本 ， 基 于 Facebook 内 部 开发 的 代码 免费 提 
供 的 M3， 以 及 具备 镜像 、 快 照 等 功能 ， 面 向 关键 领域 用 
途 的 M5。 


宣称 和 Apache Hadoop 


DataStax/Brisk : 采用 Cassandra 代 替 HDFS 和 HBase 作 为 


(使 用 Cassandra DataStax/Brisk | 存储 模块 的 发 行 版 。 作 为 与 HDFS 兼 容 的 存储 层 ， 在 
的 发 行 版 ) CassandraFS 上 集成 了 MapReduce 、Hive、 工 作 跟 踪 、 任 

务 跟踪 功能 ， 并 可 以 使 用 Cassandra 的 实时 功能 。 
Hortonworks : 从 雅虎 独立 出 来 的 公司 。 该 公司 拥有 
(对 开源 版 本 的 功 Apache Hadoop 主 要 的 架构 师 和 软件 工程 师 ， 目 的 是 促 
能 强化 和 支持 服务 ) Hortonworks 进 Apache Hadoop 普 及 、 提 供 的 服务 包括 订阅 制 的 支持 
服务 、 培训 、 配 置 程序 等 。2011 年 10 月 ， 宣 布 与 微软 公 

司 建立 合作 关系 。 


图 10-6 Hadoop 的 商用 发 行 版 /支持 服务 


Yahoo! 

(excl. Hortonworks) 
Hortonworks 

(@Y! and since) 
Cloudera 


Facebook( 脸 谱 ) 
LinkcdIn( 领 英 ) 


All Others 


0 10 20 30 40 50 60 70 80 90 / 千 行 
图 10-7 主要 厂商 对 Apache Hadoop 贡献 的 代码 行 数 


很 大 的 反响 。 而 在 如 此 大 幅度 的 方针 转变 中 ,微软 选择 了 Hortonworks 作为 其 合作 
伙伴 。 


104 大 数据 的 数据 处 理 基 础 


在 传统 的 数据 存储 、 处 理 平台 中 .需要 将 数据 从 CRM、ERP 等 系统 中 ,通过 ELT 
(Extract / Load / Transform, 抽 取 / 加 载 /转换 ) 工 具 提 取出 来 ,并 转换 为 容易 使 用 的 形 
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式 , 再 导入 像 数 据 仓库 了 和 RDBMS® 等 专用 于 分 析 的 数据 库 中 。 这 样 的 工作 通常 会 按照 
计划 ,以 每 天 或 者 每 周 这 样 的 周期 来 进行 。 

然后 ,为 了 让 经 营 策划 等 部 门 中 的 商务 分 析 师 能 够 通过 数据 仓库 用 其 中 经 正则 化 处 
理 的 数据 输出 固定 格式 的 报表 ,并 让 管理 层 能 够 对 业绩 进行 管理 和 对 目标 完成 情况 进行 
查询 ,就 需要 提供 一 个 “管理 指标 板 ”, 将 多 张 数据 表 和 图 表 整 合 显示 在 一 个 画面 上 。 

当 管 理 的 数据 超过 一 定 规模 时 ,要 完成 这 一 系列 工作 ,除了 数据 仓库 之 外 ,一 般 还 需 
要 使 用 如 SAP 的 Business Objects、IBM 的 Cognos、Oracle 的 Oracle BI 等 商业 智能 
工具 。 

用 这 些 现 有 的 平台 很 难处 理 具备 3V 特征 的 大 数据 ,即便 能 够 处 理 , 在 性 能 方面 也 很 
难 期 望 能 有 良好 的 表现 。 首 先 , 随 着 数据 量 的 增加 ,数据 仓库 所 带 来 的 负荷 也 会 越 来 越 
大 ,数据 装载 的 时 间 和 查询 的 性 能 都 会 恶化 。 其 次 ,企业 目前 所 管理 的 数据 都 是 如 CRM、 
ERP、 财 务 系统 等 产生 的 客户 数据 、 销 售 数据 等 结构 化 数据 ,而 现 有 的 平台 在 设计 时 并 没 
有 考虑 到 由 社交 媒体 、 传 感 器 网 络 等 产生 的 非 结构 化 数据 。 因 此 ,对 这 些 时 时 刻 刻 都 在 产 
生 的 非 结构 化 数据 进行 实时 分 析 ,并 从 中 获取 有 意义 的 观点 ,是 十 分 困难 的 。 申 此 可 见 ， 
为 了 应 对 大 数据 时 代 , 需 要 从 根本 上 重新 考虑 用 于 数据 存储 和 处 理 的 平台 。 


10.4.1 Hadoop 与 NoSQL 


作为 支撑 大 数据 的 基础 技术 ,能 和 Hadoop 一 样 受 到 越 来 越 多 关注 的 ,就 是 NoSQL 
数据 库 了 。 在 大 数据 处 理 的 基础 平台 中 ,需要 由 Hadoop 和 NoSQL 数据 库 来 担任 核心 角 
色 。Hadoop 已 经 催生 了 多 个 子 项 目 . 其 中 包括 基于 Hadoop 的 数据 仓库 Hive 和 数据 挖 
掘 库 Mahout 等 ,通过 运用 这 些 工具 , 仅 在 Hadoop 的 环境 中 就 可 以 完成 数据 分 析 的 所 有 
工作 。 

然而 ,对 于 大 多 数 企业 来 说 ,要 抛弃 已 经 习惯 的 现 有 平台 ,从 零 开 始 搭 建 一 个 新 的 平 
台 来 进行 数据 分 析 , 显然 是 不 现实 的 。 因 此 ,有 些 数据 仓库 厂商 提出 这 样 一 种 方案 ,用 
Hadoop 将 数据 处 理 成 现 有 数据 仓库 能 够 进行 存储 的 形式 ( 即 用 作 前 处 理 ) ,在 装载 数据 
之 后 再 使 用 传统 的 商业 智能 工具 来 进行 分 析 。 

Hadoop 和 NoSQL 数据 库 , 是 在 现 有 关系 型 数据 库 和 SQL 等 数据 处 理 技术 很 难 有 
效 处 理 非 结 构 化 数据 这 一 背景 下 ,由 Google、Amazon、Facebook 等 企业 因 自 身 迫 切 的 需 
求 而 开发 的 。 因 此 ,作为 一 般 企 业 不 必 非 要 推翻 和 替换 现 有 的 技术 ,在 销售 数据 和 客户 数 
据 等 结构 化 数据 的 存储 和 处 理 上 ,只 要 使 用 传统 的 关系 型 数据 库 和 数据 仓库 就 可 以 了 。 

由 于 Hadoop 和 NoSQL 数据 库 是 开源 的 ,因此 和 商用 软件 相 比 ,其 软件 授权 费用 十 


@ 数据 仓库 (Data Warehouse,DW) 是 决策 支持 系统 (DSS) 和 联机 分 析 应 用 数据 源 的 结构 化 数据 环境 。 在 信息 
技术 与 数据 智能 大 环境 下 ,数据 仓库 在 软 硬 件 领 域 .因特网 和 企业 内 部 网 解决 方案 以 及 数据 库 方面 提供 了 许多 经 济 高 
效 的 计算 资源 ,可 以 保存 极 大 量 的 数据 供 分 析 使 用 ,上 且 允许 使 用 多 种 数据 访问 技术 。 数 据 仓 库 主要 由 数据 抽取 工具 、 
数据 仓库 数据 库 .元 数据 .数据 集 市 .数据 仓库 管理 ,信息 发 布 系统 和 访问 工具 组 成 。 

@ ”RDBMS 即 关 系数 据 库 管理 系统 (Relational Database Management System) ,是 将 数据 组 织 为 相关 的 行 和 列 
的 系统 ,而 管理 关系 数据 库 的 计算 机 软件 就 是 关系 数据 库 管理 系统 ,常用 的 数据 库 软件 有 Oracle、SQL Server 等 。 它 
通过 数据 、 关 系 和 对 数据 的 约束 三 者 组 成 的 数据 模型 来 存放 和 管理 数据 。 
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分 低廉 ,但 另 一 方面 , 想 招募 到 精通 这 些 技术 的 人 才 却 可 能 需要 付出 很 高 的 成 本 。 
10.4.2 NoSQL 与 RDBMS 的 主要 区 别 


传统 的 关系 型 数据 库 管 理 系统 (RDBMS) 是 通过 SQL 这 种 标准 语言 来 对 数据 库 进行 
操作 的 。 而 相对 地 ,NoSQL 数据 库 并 不 使 用 SQL。 因 此 .有 时 候 人 们 会 将 其 误 认为 是 对 
使 用 SQL 的 现 有 RDBMS 的 否定 ,并 将 要 取代 RDBMS ,而 实际 上 却 并 非 如 此 。NoSQL 
数据 库 是 对 RDBMS 所 不 擅长 的 部 分 进行 的 补充 ,因此 应 该 理解 为 "Not only SQL” 的 

NoSQL 数据 库 和 传统 上 使 用 的 RDBMS 之 间 的 主要 区 别 有 下 列 几 点 ( 表 10-1) 。 


表 10-1 RDBMS 与 NoSQL 数据 库 的 区 别 


RDBMS NoSQL 
数据 类 型 ”| 结构 化 数据 主要 是 非 结构 化 数据 
数据 库 结构 | 需要 事先 定义 ,是 固定 的 不 需要 事先 定义 ,并 可 以 灵活 改变 
数据 一 致 性 | 通过 ACIO 特性 保持 严密 的 一 致 性 。 | 存在 师 时 的 不 保持 产 密 一 到 性 的 状态 (结果 下 


扩展 性 基本 是 向 上 扩展 。 由 于 需要 保持 数据 | 通过 横向 扩展 可 以 在 不 降低 性 能 的 前 提 下 应 对 


的 一 致 性 ,因此 性 能 下 降 明 显 大 量 访问 ,实现 线性 扩展 
服务 器 以 在 一 台 服 务 器 上 工作 为 前 提 以 分 布 ,协作 式 工 作为 前 提 
故障 容忍 性 | 为 了 提高 故障 容忍 性 需要 很 高 的 成 本 | 有 很 多 无 单一 故障 点 的 解决 方案 ,成 本 低 
查询 语言 “| SQL 支持 多 种 非 SQL 语言 
数据 量 《和 NoSQL 相 比 相对 ) 较 小 规模 数据 | (和 RDSMS 相 比 相对 ) 较 大 规模 数据 


1. 数据 模型 与 数据 库 结构 


在 RDBMS 中 ,数据 被 归纳 为 表 (Table) 的 形式 .并 通过 定义 数据 之 间 的 关系 ,来 描述 
严格 的 数据 模型 。 这 种 方式 需要 在 理解 要 输入 数据 的 含义 的 基础 上 ,事先 对 字段 结构 做 
出 定义 。 一 旦 定义 好 数据 库 结 构 就 相对 固定 了 ,很 难 进行 修改 。 

在 NoSQL 数据 库 中 ,数据 是 通过 键 及 其 对 应 的 值 的 组 合 ,或 者 是 键 值 对 和 追加 键 
(Column Family) 来 描述 的 .因此 结构 非常 简单 ,也 无 法 定义 数据 之 间 的 关系 。 其 数据 库 
结构 无 须 在 一 开始 就 固定 下 来 , 且 随 时 都 可 以 进行 灵活 的 修改 。 

2 数据 一 致 性 

在 RDBMS 中 ,由 于 存在 ACID(Atomicity 二 原子 性 , Consistency 二 一 致 性 、 
Isolation 二 隔离 性 ,Durability 二 持久 性 ) 原 则 ,因此 可 以 保持 严密 的 数据 一 致 性 。 

而 NoSQL 数据 库 并 不 是 遵循 ACID 这 种 严格 的 原则 ,而 是 采用 结果 上 的 一 致 性 


(Eventual Consistency), 即 可 能 存在 临时 的 、 无 法 保持 严密 一 致 性 的 状态 。 到 底 是 用 
RDBMS 还 是 NoSQL 数据 库 . 需 要 根据 用 途 来 进行 选择 ,而 数据 一 致 性 这 一 点 尤为 重要 。 
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例如 , 像 银行 账户 的 转 入 / 转 出 处 理 . 如 果 不 能 保证 交易 处 理 立即 在 数据 库 中 得 到 体 
现 , 并 严密 保持 数据 一 致 性 的 话 , 就 会 引发 很 大 的 问题 。 相 对 地 ,我 们 想 一 想 Twitter 上 
增加 一 个 粉丝 的 情况 。 粉 丝 数 量 从 1050 人 变 成 1051 人 ,但 这 个 变化 即便 没有 即时 反映 
出 来 ,基本 上 也 不 会 引发 什么 大 问题 。 前 者 这 样 的 情况 ,适合 用 RDBMS; 而 后 者 这 样 的 
情况 , 则 适合 用 NoSQL 数据 库 。 


3. 扩展 性 


RDBMS 由 于 重视 ACID 原则 和 数据 的 结构 ,因此 在 数据 量 增加 的 时 候 , 基 本 上 是 采 
取 购 买 更 大 的 服务 器 这 样 向 上 扩展 的 方法 来 进行 扩容 ,而 从 架构 方面 来 看 ,是 很 难 进 行 横 
向 扩展 的 。 

此 外 ,由 于 数据 的 一 致 性 需要 严密 的 保证 ,对 性 能 的 影响 也 十 分 显著 ,如 果 为 了 提升 
性 能 而 进行 非 正 则 化 处 理 , 则 又 会 降低 数据 库 的 维护 性 和 操作 性 。 

虽然 通过 像 Oracle 的 RAC(Real Application Clusters, 真 正 应 用 集群 ) 这 样 能 够 从 多 
台 服 务 器 同时 操作 数据 库 的 架构 ,也 可 以 对 RDBMS 实现 横向 扩展 ,但 从 现实 情况 来 看 ， 
这 样 的 扩展 最 多 到 几 倍 的 程度 就 已 经 达到 极限 了 。 除 此 之 外 还 有 一 种 方法 ,将 数据 库 的 
内 容 由 多 台 应 用 程序 服务 器 进行 分 布 式 缓存 ,并 将 缓存 配置 在 RDBMS 的 前 面 。 但 在 大 
规模 环境 下 ,会 发 生 数 据 同步 延迟 .维护 复杂 等 问题 ,并 不 是 一 个 非常 实用 的 方法 。 
NoSQL 数据 库 则 具备 很 容易 进行 横向 扩展 的 特性 ,对 性 能 造成 的 影响 也 很 小 。 而 且 , 由 
于 它 在 设计 上 就 是 以 在 一 般 通 用 型 硬件 构成 的 集群 上 工作 为 前 提 的 ,因此 在 成 本 方面 也 
具有 优势 。 


4 容错 性 


RDBMS 可 以 通过 复制 (Replication) 将 数据 在 多 台 服 务 器 上 保留 副本 ,从 而 提高 容 
错 性 。 然 而 ,在 发 生 数据 不 匹配 的 情况 时 ,以 及 想 要 增加 副本 时 ,在 维护 上 的 负荷 和 成 本 
都 会 提高 。 

NoSQL 由 于 本 来 就 支持 分 布 式 环境 ,大 多 数 NoSQL 数据 库 都 没有 单一 故障 点 ,对 
故障 的 应 对 成 本 比较 低 。 

可 见 ,NoSQL 数据 库 具备 这 些 特征 : 数据 结构 简单 .不 需要 数据 库 结构 定义 (或 者 可 
以 灵活 变更 ) .不 对 数据 一 致 性 进行 严格 保证 、 通 过 横向 扩展 可 实现 很 高 的 扩展 性 等 。 简 
而 言 之 ,就 是 一 种 以 牺牲 一 定 的 数据 一 致 性 为 代价 ,追求 灵活 性 .扩展 性 的 数据 库 。 

NoSQL 数据 库 的 诞生 ,是 缘 于 现 有 RDBMS 存在 一 些 问题 ,如 不 能 处 理 非 结 构 化 数 
据 、 难 以 进行 横向 扩展 .扩展 性 存在 极限 等 。 也 就 是 说 ,即便 RDBMS 非常 适用 于 企业 的 
一 般 业 务 ,但 要 作为 以 非 结 构 化 数据 为 中 心 的 大 数据 处 理 的 基础 , 则 并 不 是 一 个 合适 的 选 
择 。 例 如 ,在 实际 进行 分 析 之 前 ,很 难 确 定 在 如 此 多 样 的 非 结构 化 数据 中 ,到 底 哪些 才 是 
有 用 的 ,因此 ,事先 对 数据 库 结 构 进行 定义 是 不 现实 的 。 而 且 ,RDBMS 的 设计 对 数据 的 
完整 性 非常 重视 ,在 一 个 事务 处 理 过 程 中 ,如 果 发 生 任何 故障 ,都 可 以 很 容易 地 进行 回 滚 。 
然而 ,在 大 规模 分 布 式 环境 下 ,数据 更 新 的 同步 处 理 所 造 成 的 进程 间 通 信和 延迟 则 成 为 一 个 
瓶颈 。 
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随 着 主要 的 RDBMS 系统 Oracle 推出 ,其 NoSQL 数据 库 产品 作为 现 有 Oracle 数据 
库 产品 的 补充 ,“ 现 有 RDBMS 并 不 是 大 数据 基础 的 最 佳 选择 "这 一 观点 也 在 一 定 程 度 上 
得 到 了 印证 (图 10-8) 。 


有 
非 结构 化 数据 Hadoop Oracle 
Analytics 
无 结构 定义 的 数据 acle Loader for Hadoop|| Data Mining 
NoSQL DB 号 
Spatial 
Graph 
MapReduce 
RDBMS 
(OLTP) RDBMS 
有 结构 定义 的 数据 (DW) Oracle 
BIEE 
' 


图 10-8 支持 大 数据 的 Oracle 软件 系列 


10.4.3 NewSQL 


所 谓 NewSQL 是 指 这 样 一 类 系统 ,它们 既 保 留 了 SQL 查询 的 方便 性 ,又 能 提供 高 性 
能 和 高 可 扩展 性 ,而 且 还 能 保留 传统 的 事务 操作 的 ACID 特性 。 这 类 系统 既 能 达到 
NoSQL 系统 的 吞吐 率 , 又 不 需要 在 应 用 层 进行 事务 的 一 致 性 处 理 。 此 外 ,它们 还 保持 了 
高 层次 结构 化 查询 语言 SQL 的 优势 。 这 类 系统 目前 主要 包括 Clustrix、NimbusDB 及 
VoltDB 等 。 

因此 NewSQL 被 认为 是 针对 New OLTP 系统 的 NoSQL 或 者 是 OldSQL 系统 的 一 
种 替代 方案 。NewSQL 既 可 以 提供 传统 的 SQL 系统 的 事务 保证 ,又 能 提供 NoSQL 系统 
的 可 扩展 性 。 如 果 New OLTP 将 来 有 一 个 很 大 的 市 场 的 话 ,那么 将 会 有 越 来 越 多 不 同 架 
构 的 NewSQL 数据 库 系统 出 现 。 

NewSQL 系统 涉及 很 多 新 颖 的 架构 设计 ,例如 ,可 以 将 整个 数据 库 都 在 主 内 存 中 运 
行 ,从 而 消除 掉 数 据 库 传统 的 缓存 管理 (Buffer) ;可 以 在 一 个 服务 器 上 面 只 运行 一 个 线 
程 ,从 而 去 除 掉 轻 量 的 加 锁 阻 塞 (Latching) (尽管 某 些 加 锁 操 作 仍 然 需 要 ,并 且 影 响 性 
能 ) ;还 可 以 使 用 额外 的 服务 器 来 进行 复制 和 失败 恢复 的 工作 ,从 而 取代 昂贵 的 事务 恢复 
操作 。 

NewSQL 是 一 类 新 型 的 关系 数据 库 管理 系统 ,对 于 OLTP 应 用 来 说 ,它们 可 以 提供 
和 NoSQL 系统 一 样 的 扩展 性 和 性 能 ,另外 还 能 保证 传统 的 单 节 点 数据 库 一 样 的 ACID 
事务 保证 。 

用 NewSQL 系统 处 理 某 些 应 用 非常 合适 ,这 些 应 用 一 般 都 具有 大 量 的 下 述 类 型 的 事 
务 , 即 短 事务 ,点 查询 .Repetitive( 用 不 同 的 输入 参数 执行 相同 的 查询 )。 另 外 ,大 部 分 
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NewSQL 系统 通过 改进 原始 的 System R 的 设计 来 达到 高 性 能 和 扩展 性 ,比如 取消 重量 
级 的 恢复 策略 ,改进 并 发 控制 算法 等 。 


105 相关 的 大 数据 技术 


大 数据 带 给 我 们 的 无 论 从 内 容 丰 富 程 度 还 是 详细 程度 上 看 都 将 超过 从 前 ,从 而 有 可 
能 让 我 们 的 视野 宽度 与 学 习 速 度 实现 突破 。 用 麦克 森 公 司 管理 层 的 话 来 说 ,大 数据 可 以 
让 ”一 切 潜在 机 会 无 所 通 形 ”。 


10.5.1 神经 网 络 


人 工 神 经 网 络 (Neural Network) 是 由 大 量 处 理 单元 (或 称 神经 元 ) 互 连 组 成 的 非 线 
性 、 自 适应 信息 处 理 系统 。 它 是 在 现代 神经 科学 研究 成 果 的 基础 上 提出 的 ,试图 通过 模拟 
大 脑 神经 网 络 处 理 、 记 忆 信 息 的 方式 进行 信息 处 理 。 文 字 识 别 、 语 音 识别 等 模式 识别 领域 
适合 应 用 神经 网 络 , 此 外 ,在 信和 用、 贷款 的 风险 管理 ,信用 欺诈 监测 等 领域 也 得 到 了 广泛 的 
应 用 。 人 工 神经 网 络 具 有 以 下 4 个 基本 特征 。 

(1) 非 线性 。 非 线性 关系 是 自然 界 的 普遍 特性 。 大 脑 的 智慧 就 是 一 种 非 线 性 现象 。 
人 工 神经 元 处 于 激活 或 抑制 两 种 不 同 的 状态 ,这 种 行为 在 数学 上 表现 为 一 种 非 线性 关系 。 
具有 阅 值 的 神经 元 构成 的 网 络 具 有 更 好 的 性 能 ,可 以 提高 容错 性 和 存储 容量 。 

(2) 非 局 限 性 。 一 个 神经 网 络 通常 由 多 个 神经 元 广泛 连接 而 成 。 一 个 系统 的 整体 行 
为 不 仅 取决 于 单个 神经 元 的 特征 ,而 且 可 能 主要 由 单元 之 间 的 相互 作用 、 相 互 连 接 所 决 
定 。 通 过 单元 之 间 的 大 量 连 接 模拟 大 脑 的 非 局 限 性 。 联 想 记 忆 是 非 局 限 性 的 典型 例子 。 

(3) 非常 定性 。 人 工 神经 网 络 具 有 自 适应 、 自 组 织 、 自 学 习 能 力 。 神 经 网 络 不 但 处 理 
的 信息 可 以 有 各 种 变化 ,而 且 在 处 理 信 息 的 同时 , 非 线性 动力 系统 本 身 也 在 不 断 变化 。 经 
常 采用 人 迭代 过 程 描写 动力 系统 的 演化 过 程 。 

(4) 非 凸 性 。 一 个 系统 的 演化 方向 ,在 一 定 条 件 下 将 取决 于 某 个 特定 的 状态 函数 。 
例如 能 量 函 数 , 它 的 极 值 相 应 于 系统 比较 稳定 的 状态 。 非 凸 性 是 指 这 种 函数 有 多 个 极 值 ， 
故 系统 具有 多 个 较 稳定 的 平衡 态 ,这 将 导致 系统 演化 的 多 样 性 。 

人 工 神经 网 络 是 并 行 分 布 式 系统 ,采用 了 与 传统 人 工 智 能 和 信息 处 理 技术 完全 不 同 
的 机 理 , 克 服 了 传统 的 基于 逻辑 符号 的 人 工 智能 在 处 理 直 觉 . 非 结构 化 信息 方面 的 缺陷 ， 
具有 自 适应 、 自 组 织 和 实时 学 习 的 特点 。 

人 工 神经 网 络 中 ,神经 元 处 理 单元 可 表示 不 同 的 对 象 ,例如 特征 、 字 母 、 概 念 ,或 者 一 
些 有 意义 的 抽象 模式 。 网 络 中 处 理 单元 的 类 型 分 为 三 类 : 输入 单元 、 输 出 单元 和 隐 单 元 
(图 10-9)。 

输入 单元 接受 外 部 世界 的 信号 与 数据 ;输出 单元 实现 系统 处 理 结果 的 输出 ; 隐 单 元 是 
处 在 输入 和 输出 单元 之 间 , 不 能 由 系统 外 部 观察 的 单元 。 神 经 元 间 的 连接 权 值 反映 了 单 
元 间 的 连接 强度 ,信息 的 表示 和 处 理 体现 在 网 络 处 理 单元 的 连接 关系 中 。 人 工 神 经 网 络 
是 一 种 非 程序 化 、 适 应 性 ,大脑 风格 的 信息 处 理 , 其 本 质 是 通过 网 络 的 变换 和 动力 学 行为 
得 到 一 种 并 行 分 布 式 的 信息 处 理 功 能 .并 在 不 同 程度 和 层次 上 模仿 人 脑 神 经 系统 的 信息 
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处 理 功 能 。 它 是 涉及 神经 科学 .思维 科学 \ 人 工 智能 .计算 机 科学 等 多 个 领域 的 交叉 学 科 。 


输入 单元 隐 单 元 输出 单元 
图 10-9 神经 网 络 


10.5.2 自然 语言 处 理 


自然 语言 处 理 是 计算 机 科学 领域 与 人 工 智 能 领域 中 的 一 个 重要 方向 ,是 一 门 融 语 言 
学 .计算 机 科学 .数学 于 一 体 的 科学 。 自 然 语 言 处 理 研究 能 实现 人 与 计算 机 之 间 用 自然 语 
言 进 行 有 效 通信 的 各 种 理论 和 方法 。 因 此 ,这 一 领域 的 研究 将 涉及 自然 语言 , 即 人 们 日 常 
使 用 的 语言 ,所 以 它 与 语言 学 的 研究 有 着 密切 的 联系 ,但 又 有 重要 的 区 别 。 自 然 语 言 处 理 
并 不 是 一 般 地 研究 自然 语言 ,而 在 于 研制 能 有 效 地 实现 自然 语言 通信 的 计算 机 系统 ,特别 
是 其 中 的 软件 系统 。 具 体 来 说 ,包括 将 句子 分 解 为 单词 的 语素 分 析 、 统 计 各 单词 出 现 频率 
的 频 度 分 析 、 理 解 文章 含义 并 造句 的 理解 等 。 

自然 语言 处 理 的 应 用 领域 十 分 广泛 ,如 从 大 量 文本 数据 中 提炼 出 有 用 信息 的 文本 挖 
掘 ,以 及 利用 文本 挖掘 对 社交 媒体 上 商品 和 服务 的 评价 进行 分 析 等 。 智 能 手机 iPhone 中 
的 语音 助手 Siri 也 是 自然 语言 处 理 的 一 个 应 用 。 

用 自然 语言 与 计算 机 进行 通信 , 既 有 明显 的 实际 意义 ,同时 也 有 重要 的 理论 意义 : 人 
们 可 以 用 自己 最 习惯 的 语言 来 使 用 计算 机 ,而 无 须 再 花 大 量 的 时 间 和 精力 去 学 习 不 很 自 
然 和 习惯 的 各 种 计算 机 语言 ;人 们 也 可 通过 它 进 一 步 了 解 人 类 的 语言 能 力 和 智能 的 机 制 。 

实现 人 机 间 自 然 语言 通信 和 意味 着 要 使 计算 机 既 能 理解 自然 语言 文本 的 意义 ,也 能 以 
自然 语言 文本 来 表达 给 定 的 意图 、 思 想 等 。 前 者 称 为 自然 语言 理解 ,后 者 称 为 自然 语言 生 
成 。 因 此 ,自然 语言 处 理 大 体 包括 自然 语言 理解 和 自然 语言 生成 两 个 部 分 。 历 史上 对 自 
然 语言 理解 研究 得 较 多 ,而 对 自然 语言 生成 研究 得 较 少 。 但 这 种 状况 已 有 所 改变 。 

无 论 实现 自然 语言 理解 ,还 是 自然 语言 生成 ,都 远 不 如 和 人们 原来 想象 的 那么 简单 。 从 
现 有 的 理论 和 技术 现状 看 ,通用 的 、 高 质量 的 自然 语言 处 理 系 统 , 仍 然 是 较 长 期 的 努力 目 
标 ,但 是 针对 一 定 应 用 ,具有 相当 自然 语言 处 理 能 力 的 实用 系统 已 经 出 现 , 有 些 已 商品 化 ， 
甚至 开始 产业 化 。 典 型 的 例子 有 : 多 语种 数据 库 和 专家 系统 的 自然 语言 接口 ,各 种 机 器 
翻译 系统 ,全 文 信息 检索 系统 .自动 文摘 系统 等 。 
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10.5.3 语义 检索 


语义 检索 是 指 在 知识 组 织 的 基础 上 ,从 知识 库 中 检索 出 知识 的 过 程 ,是 一 种 基于 知识 
组 织 体系 ,能 够 实现 知识 关联 和 概念 语义 检索 的 智能 化 的 检索 方式 。 与 将 单词 视 为 符号 
来 进行 检索 的 关键 词 检索 不 同 ,语义 检 索 通 过 文章 内 各 语素 之 间 的 关联 性 来 分 析 语 言 
含义 ,从 而 提高 精确 度 。 

语义 检索 具有 两 个 显著 特征 ,一 是 基于 某 种 具有 语义 模型 的 知识 组 织 体 系 , 知 识 组 织 
体系 是 实现 语义 检索 的 前 提 与 基础 ,语义 检索 则 是 基于 知识 组 织 体系 的 结果 ;二 是 对 资源 
对 象 进 行 基于 元 数据 的 语义 标注 ,元 数据 是 知识 组 织 系统 的 语义 基础 ,只 有 经 过 元 数据 描 
述 与 标注 的 资源 才 具 有 长 期 利用 的 价值 。 以 知识 组 织 体系 为 基础 ,并 以 此 对 资源 进行 语 
义 标注 ,才能 实现 语义 检索 。 

语义 检索 模型 集成 各 类 知识 对 象 和 信息 对 象 ,融合 各 种 智能 与 非 智 能 理论 ,方法 与 技 
术 , 实 现 语义 检索 ,例如 基于 知识 结构 的 检索 、 基 于 知识 内 容 的 检索 、 基 于 专家 启发 式 的 语 
义 检索 、 基 于 知识 导航 的 智能 浏览 检索 和 分 布 式 多 维 检 索 。 语 义 检索 常用 的 检索 模型 有 
分 类 检索 模型 .多维 认 知 检索 模型 分布 式 检索 模型 等 。 分 类 检索 模型 利用 事物 之 间 最 本 
质 的 关系 来 组 织 资源 对 象 ,具有 语义 继承 性 ,揭示 资源 对 象 的 等 级 关系 参照 关系 等 ,充分 
表达 用 户 的 多 维 组 合 需求 信息 。 多 维 认 知 检索 模型 的 理论 基础 是 人 工 神 经 网 络 , 它 模拟 
人 脑 的 结构 ,将 信息 资源 组 织 为 语义 网 络 结构 ,利用 学 习 机 制 和 动态 反馈 技术 ,不 断 完善 
检索 结果 。 分 布 式 检索 模型 综合 利用 多 种 技术 ,评价 信息 资源 与 用 户 需 求 的 相关 性 ,在 相 
关 性 高 的 知识 库 或 数据 库 中 执行 检索 ,然后 输出 与 用 户 需 求 相关 、 有 效 的 检索 结果 。 

语义 检索 系统 中 , 除 提供 关键 词 实现 主题 检索 外 ,还 结合 自然 语言 处 理 和 知识 表示 语 
言 ,表示 各 种 结构 化 、 半 结构 化 和 非 结构 化 信息 ,提供 多 途径 和 多 功能 的 检索 。 自 然 语 言 ， 
也 就 是 人 们 日 常 使 用 的 各 种 通俗 语言 ,自然 语言 处 理 技术 是 提高 检索 效率 的 有 效 途 径 之 
一 。 自 然 语言 理解 是 计算 机 科学 在 人 工 智能 方面 的 一 个 极 富 挑 战 性 的 课题 ,其 任务 是 建 
立 一 种 能 够 模仿 人 脑 去 理解 问题 .分 析 问题 并 回答 自然 语言 提问 的 计算 机 模型 。 从 实用 
性 的 角度 来 说 ,我 们 所 需要 的 是 计算 机 能 实现 基本 的 人 机 会 话 、 寓 意 理解 或 自动 文摘 等 语 
言 处 理 功能 ,还 需要 使 用 汉语 分 词 技术 、 短 语 分 词 技术 .同义词 处 理 技术 等 。 

语义 检索 是 基于 “知识 ”的 搜索 , 即 利用 机 器 学 习 、 人 工 智 能 等 模拟 或 扩展 人 的 认识 思 
维 ,提高 信息 内 容 的 相关 性 。 语 义 检索 具有 明显 的 优势 : 检索 机 制 和 界面 的 设计 均 体 现 
“面向 用 户 ” 的 思想 , 即 用 户 可 以 根据 自己 的 需求 及 其 变化 ,灵活 地 选择 理想 的 检索 策略 与 
技术 ;语义 检索 能 主动 学 习 用 户 的 知识 ,主动 向 用 户 提供 个 性 化 的 服务 : 综合 应 用 各 种 分 
析 、 处 理 和 智能 技术 , 既 能 满足 用 户 的 现实 信息 需求 ,又 能 向 用 户 提供 潜在 内 容 知识 ,全 面 

语义 检索 的 显示 方式 取决 于 资源 的 组 织 方式 ,知识 组 织 是 对 概念 关联 的 组 织 , 所 以 语 
义 检 索 显 示 的 应 是 反映 知识 内 容 和 概念 关联 的 知识 网 络 ( 或 称 知识 地 图 ) ,是 对 已 获取 的 
知识 以 及 知识 之 间 的 关系 的 可 视 化 描述 。 语 义 检索 的 呈现 结果 应 该 是 以 可 视 化 形式 展现 
知识 层次 的 网 状 结构 ,便于 用 户 循 着 知识 网 络 方便 地 获取 知识 。 
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10.5.4 链接 挖掘 


SNS( 社 会 性 网 络 软件 ) 是 一 个 采用 分 布 式 技术 ,通俗 地 说 是 依据 六 度 理论 (图 10-10)， 
采用 P2P( 点 对 点 ) 技 术 ,构建 的 下 一 代 基 于 个 人 的 网 络 基础 软件 。SNS 通过 分 布 式 软件 
编程 ,将 现在 分 散在 每 个 人 的 设备 上 的 CPU 、 硬 
盘 、 带 宽 进行 统筹 安排 ,并 赋予 这 些 相 对 服务 器 
来 说 很 渺小 的 设备 更 强大 的 能 力 。 这 些 能 力 包 
括 : 计算 速度 ,通信 速度 ,存储 空间 。 

在 互联 网 中 ,PC、 智 能 手机 都 没有 强大 的 计 
算 及 带宽 资源 ,它们 依赖 网 站 服务 器 ,才能 浏览 
发 布 信息 。 如 果 将 每 个 设备 的 计算 及 带宽 资源 
进行 重新 分 配 与 共享 ,这 些 设备 就 有 可 能 具备 比 
那些 服务 器 更 为 强大 的 能 力 。 这 就 是 分 布 计 算 图 10-10 SNS 
理论 诞生 的 根源 ,是 SNS 技术 诞生 的 理论 基础 。 

链接 挖掘 (Link Mining) 是 对 SNS、 网 页 之 间 的 链接 结构 、 邮 件 的 收发 件 关系 ,论文 的 
引用 关系 等 各 种 网 络 中 的 相互 联系 进行 分 析 的 一 种 挖掘 技术 。 特 别 是 最 近 , 这 种 技术 被 
应 用 在 SNS 中 ,如 “你 可 能 认识 的 人 ”推荐 功能 ,以 及 用 于 找到 影响 力 较 大 的 风云 人 物 。 


10.5.5 A/B 测试 

A/B 测试 是 指 在 网 站 优化 的 过 程 中 ,同时 提供 多 个 版 本 (如 版 本 A 和 版 本 B， 
图 10-11) ,并 对 各 自 的 好 评 程 度 进行 测试 的 方法 。 每 个 版 本 中 的 页 面 内 容 、 设 计 、 布 局 、 
文案 等 要 素 都 有 所 不 同 , 通 过 对 比 实际 的 点 击 量 和 转化 率 ,就 可 以 判断 哪 一 个 更 加 优秀 。 


图 10-11 A/B 测 试 


四” 六 度 理论 : 是 指 任 何 一 个 陌生 人 之 间 所 间隔 的 人 不 会 超过 6 个 ,也 就 是 说 ,最 多 通过 6 个 人 你 就 能 够 认识 任何 
一 个 陌生 人 。 
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第 10 价 挛 畔 大 数 晤 的 技术 


虽然 都 是 大 数据 ,但 传感器 数据 和 SNS 数据 ,在 各 自 数据 的 获取 方法 和 分 析 方 法 上 
是 有 所 区 别 的 。SNS 需要 从 用 户 发 布 的 庞大 文本 数据 中 提炼 出 自己 所 需要 的 信息 ,并 通 
过 文本 挖掘 和 语义 检索 等 技术 ,由 机 器 对 用 户 要 表达 的 意图 进行 自动 分 析 。 

在 支撑 大 数据 的 技术 中 ,虽然 Hadoop、 分 析 型 数据 库 等 基础 技术 是 不 容 忽视 的 ,但 
即便 这 些 技术 对 提高 处 理 的 速度 做 出 了 很 大 的 贡献 , 仅 靠 其 本 身 并 不 能 产生 商业 上 的 价 
值 。 从 在 商业 上 利用 大 数据 的 角度 来 看 , 像 自然 语言 处 理 .语义 技术 、 统 计 分 析 等 ,能 够 从 
个 别 数据 总 结 出 有 用 信息 的 技术 ,也 需要 重视 起 来 。 


【延伸 阅读 】 
扎 克 伯 格 最 本 质 的 模样 


转眼 之 间 , 社 交 网 络 Facebook 已 陪伴 人 们 走 过 了 12 个 春秋 , 它 已 深 深 地 渗入 到 了 人 
们 的 日 常生 活 之 中 。 迄 今 为 止 ,已 有 无 数 人 援 文 庆祝 它 的 巨大 成 功 ,描绘 它 的 创始 人 兼 
CEO 马克 。 扎 克 伯 格 的 远见 卓识 。 

那么 ,第 一 个 为 扎 克 伯 格 (图 10-12) 立 传 的 
人 是 谁 呢 ? 据 本 文 作者 所 知 ,这 个 人 就 是 哈佛 
大 学 学 生日 报 《 哈 佛 深 红 报 ) 的 记者 迈克 尔 。 昔 
林 鲍 姆 。 他 的 文章 题目 是 《马克 。 正 . 扎 克 伯 
格 : Facebook. com 网 站 背后 的 奇才 》, 该 文 发 
表 于 2004 年 6 月 10 日 ,也 就 是 扎 克 伯 格 的 社 
交 网 络 刚刚 诞生 4 个 月 的 时 候 。 

《哈佛 深 红 报 》 报 道 了 Facebook. com 网 站 图 10-12 扎 克 伯 格 
的 迅速 崛起 一 在 仅仅 数 天 内 ,就 有 650 个 用 
户 注 册 。 而 在 此 之 前 , 扎 克 伯 格 还 在 的 鼓 他 的 美女 评选 网 站 Facemash。 这 篇 文章 甚至 还 
介绍 了 扎 克 伯 格 和 他 的 朋友 亚当 。 德 安 杰 罗 在 高 中 一 起 开发 的 播放 列表 创建 软件 
Synapse。 不 管 怎 么 说 ,六 林 鲍 姆 的 这 篇 1800 字 的 文章 是 第 一 篇 公开 发 表 的 扎 克 伯 格 的 
小 传记 ,而 不 是 新 闻 故 事 。 

大 约 十 二 年 后 , 它 仍然 是 最 有 意思 的 介绍 Facebook 故事 的 文章 。 它 让 人 们 有 机 会 见 
到 这 个 社交 网 络 创始 人 在 刚刚 想 出 这 个 绝妙 创意 时 的 情景 。 尽 管 现 在 的 扎 克 伯 格 经 常 穿 
着 灰色 工 恤 , 行 为 举止 总 是 充满 了 孩子 气 , 但 是 在 必要 的 时 候 , 他 也 能 表现 得 自己 就 像 一 
个 政治 家 。 然 而 , 苞 林 鲍 姆 却 成 功 抓 住 了 他 最 本 真 的 模样 。 

咏 林 鲍 姆 是 在 哈佛 大 学 本 科 生 宿舍 Kirkland House 采访 到 扎 克 伯 格 的 。 当 时 正 是 
学 期 末 , 这 位 Facebook. com 网 站 的 创建 者 正在 打包 他 的 东西 。“ 即 使 是 在 那个 时 候 ， 
Facebook 也 是 称 得 上 是 一 个 奇迹 。” 这 名 当时 的 学 生 记 者 、 现 在 的 《纽约 时 报 ) 总 编辑 说 ， 
“在 它 推出 的 大 约 72 个 小 时 内 ,校园 里 就 无 人 不 知 它 的 存在 了 。 我 不 敢 说 我 们 当时 就 知 
道 它 一 定 能 够 成 气候 ,但 是 当时 确实 有 很 多 人 对 马克 充满 了 兴趣 。” 

好 吧 , 介 绍 这 篇 文章 够 多 了 。 下 面 来 摘录 其 中 的 几 段 文字 欣赏 一 下 吧 。 不 过 ,说 实 
话 , 整 篇 文章 都 很 值得 去 读 一 读 。 
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大 数 据 导 和 论 


计算 机 总 是 让 我 感到 兴奋 


现在 ,我 们 往往 以 年 为 单位 来 衡量 Facebook 的 历史 ,但 在 2004 年 的 哈佛 大 学 ,他 们 
衡量 它 的 单位 是 学 期 ,而 且 它 都 还 没有 过 完 第 一 个 学 期 。 

在 创建 Facebook. com 将 近 一 个 学 期 后 一 一 该 社交 网 站 是 在 2 月 4 日 推出 的 一 一 马 
克 。 扎 克 伯 格 似乎 并 没有 把 它 当 回 事 。 

他 穿着 黄色 工作 、 蓝 色 牛 仔裤 以 及 露 趾 的 阿迪 达 斯 凉鞋 。 在 杂乱 无 章 的 Kirkland House 
本 科 生 宿舍 中 间 , 扎 克 伯 格 就 坐 在 一 个 破 沙 发 上 ,周围 到 处 扔 的 是 衣服 和 半 开 半 闭 的 箱子 。 

在 这 种 凌乱 不 堪 的 环境 中 ,他 仍然 笑 属 如 花 。 

“我 就 像 个 小 孩子 。 我 很 容易 就 会 觉得 无 聊 , 而 计算 机 总 是 能 让 我 感到 兴奋 。 这 两 样 
东西 就 是 我 的 驱动 力 。” 


创建 Facebook 不 是 为 了 钱 


扎 克 伯 格 称 , 创 建 Facebook 是 为 了 创造 一 些 有 用 的 东西 ,而 不 是 为 了 追逐 金钱 。 他 
现在 也 仍然 经 常 这 么 说 。 但 是 ,相对 于 现 
在 接受 采访 时 的 样子 ,当时 的 他 更 愿意 硅 
硅 其 读 。 

“我 总 在 做 这 样 的 东西 。" 扎 克 伯 格 以 
轻松 的 口吻 说 道 , “Facebook 实际 上 只 花 了 
我 一 个 星期 的 时 间 就 做 完了 。”( 图 10-13) 

这 话 要 从 别人 的 嘴 里 说 出 来 ,可 能 就 
会 显得 很 傲慢 。 但 是 ,对 于 扎 克 伯 格 来 说 ， 

图 10-13 扎 克 伯 格 他 就 是 这 样 的 说 话 风格 ,尤其 是 在 谈论 当 
今世 界 称 得 上 是 现象 级 成 功 的 东西 时 。 

他 满 脑 子 都 是 点 子 :“ 我 开发 的 一 半 东 西 都 没有 发 布 .” 他 解释 说 ,“ 我 昨天 晚上 花 了 5 
个 小 时 编程 ,做 了 一 个 非常 酷 的 东西 。 我 只 把 它 给 了 我 的 几 个 朋友 看 了 看 ,学 校 里 其 他 人 
都 不 知道 。” 

他 对 钱 不 感 兴 趣 。“ 我 就 喜欢 开发 一 些 东 西 。 如 果 我 知道 这 些 东 西 有 用 ,而 且 我 能 把 
它 搞 得 很 成 功 ,那么 我 就 觉得 这 是 一 件 很 酷 的 事情 。 但 是 ,说 实话 ,赚钱 不 是 我 的 目的 。” 

只 专心 做 好 小 事情 

下 面 这 段 话 可 以 说 非常 简练 地 概括 了 Facebook 对 待产 品 开发 的 态度 ,尽管 现在 开发 
项 目的 已 不 再 是 一 个 大 学 生 , 而 是 一 万 多 人 的 团队 。 

“我 真 不 知道 下 一 个 大 热门 是 什么 ,因为 我 不 会 把 时 间 耗 费 在 做 大 事 上 。?” 他 说 ,我 只 
是 专心 开发 各 种 小 的 东西 ,然后 等 到 时 机 成 熟 的 时 候 , 我 把 它们 整合 到 一 起 。” 


曾 对 Facebook 失去 兴 


显而易见 , 曾 有 一 些 其 他 的 东西 非常 吸引 扎 克 伯 格 ,以 至 于 他 在 尚未 开发 完成 
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第 10 售 册 暗礁 数量 的 技 小 


Facebook 的 时 候 就 对 它 失 去 了 兴趣 。 

在 去 年 1 月 月 底 , 当 他 埋头 在 究 室 里 开发 Facebook. com 的 时 候 , 他 的 室友 几乎 就 忘 
了 他 的 存在 。 

而 所 有 的 付出 都 是 没有 报酬 的 。 

“如 果 我 那天 没有 推出 Facebook ,我 想 我 可 能 就 会 放弃 它 , 转 而 去 开发 我 准备 做 的 其 
他 东西 去 了 。” 他 说 。 

饮 半 趣事: 扎 克 伯 格 最 开始 是 通过 一 本 通俗 读物 变 成 程序 员 的 。 

“《C++ 语言 傻瓜 书 》(C++ For Dummies) 是 使 他 走 上 正式 编程 道路 的 入 门 书 。 但 是 
扎 克 伯 格 称 , 他 在 与 朋友 交谈 的 过 程 中 学 到 的 知识 最 多 。” 


“不 喜欢 别人 给 我 做 的 东西 标价 ” 


这 篇 文章 还 详细 讲述 了 扎 克 伯 格 在 高 中 做 的 Synapse 项 目 。 当 时 ,有 人 斥资 几 百 万 
美元 收购 它 , 扎 克 伯 格 也 不 愿 出 售 ;这 为 他 后 来 的 生活 埋 下 了 伏笔 , 当 有 人 斤 资 几 十 亿美 
元 收购 Facebook 的 时 候 , 他 同样 给 予 了 拒绝 。 

“有 些 公司 立即 给 我 们 报价 100 万 美元 要 收购 我 们 的 项 目 , 另 一 个 买 家 则 出 价 200 万 
美元 。” 他 说 。 

他 和 德 安 杰 罗 起 初 决定 不 出 售 。 

“我 不 喜欢 别人 给 我 做 的 东西 标价 。 这 样 做 没有 道理 。" 扎 克 伯 格 说 。 

但 是 ,在 他 们 俩 被 大 学 录取 后 ,他 们 最 终 决 定 接受 别人 的 报价 。 结 果 却 发 现 ,原先 想 
收购 他 们 项 目的 公司 现在 已 不 感 兴趣 了 。 


与 文 克 莱 沃 斯 双胞胎 的 纠纷 


扎 克 伯 格 讨厌 的 文 克 莱 沃 斯 (Winkelvoss) 双 胞 胎 和 迪夫 亚 。 纳 伦 德 拉 (Divya 
Narendra) 也 在 这 篇 文章 中 有 提 及 。 我 敢 打 赌 , 在 当时 没有 人 会 猜测 到 下 面 两 段 文字 中 提 
交 的 纠纷 日 后 会 演变 成 一 部 美国 大 片 的 故事 主线 。 

上 个 月 ,有 人 指控 扎 克 伯 格 剩 窃 了 哈佛 大 学 一 个 网 络 社交 通讯 簿 的 创意 。 三 名 来 自 
德国 普 福 尔 英 海 姆 的 大 四 学 生 要 求 扎 克 伯 格 给 他 们 帮忙 开发 ConnectU 网 站 , 它 类 似 于 
扎 克 伯 格 上 个 月 推出 的 Facebook. com 网 站 。 扎 克 伯 格 为 ConnectU 网 站 忙 了 一 阵子 后 
就 离开 了 。 后 来 ,他 就 推出 了 自己 的 Facebook 网 站 。 

扎 克 伯 格 否认 了 窃取 知识 产权 的 指控 ,他 声称 ConnectU 开发 者 的 说 法 纯 属 无 稽 
之 谈 。 

不 想 要 朝 九 晚 五 的 工作 


扎 克 伯 格 总 是 尽 避 着 随心 所 欲 地 做 自己 想 做 的 事情 。 但 是 ,他 还 不 知道 如 何 赚 到 钱 
让 自己 过 上 这 种 随心 所 和 欲 的 生活 (图 10-14)。 

“我 的 目标 是 不 要 朝 九 晚 五 的 工作 。” 他 实事 求 是 地 说 ,“ 开 发 一 些 炫 酷 的 东西 是 我 热 
爱 做 的 事情 ;不 让 别人 对 我 指 手 务 脚 ,要 求 我 在 规定 的 时 间 做 这 做 那 ,是 我 追求 的 一 种 奢 
侈 生活 。” 
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大 数据 号 人 达 


图 10-14 扎 克 伯 格 


谁 能 资助 这 种 民意 的 生活 呢 ? 
“我 最 终 认为 ,我 要 做 一 些 能 够 赚钱 的 东西 。” 他 承认 。 


一 道 永恒 的 风景 线 


“Facebook 网 站 上 出 现 了 一 些 广 告 ,因为 建造 这 个 网 站 花 了 不 少 钱 , 而 且 服 务 器 又 不 
是 树 上 长 出 来 的 。” 扎 克 伯 格 说 。 

但 是 , 扎 克 伯 格 会 把 Facebook 卖 给 最 高 的 竞价 者 吗 ? 

“也 许 有 一 天 当 我 厌烦 它 的 时 候 , 我 会 卖 掉 它 ,然后 我 再 开发 一 些 别 的 东西 。" 他 说 ， 
“但 是 ,我 在 短期 内 还 看 不 到 这 种 可 能 性 。” 

扎 克 伯 格 顿 了 顿 又 说 : 

“我 说 的 “短期 ?是 指 未 来 七 八 天 的 样子 。” 

扎 克 伯 格 说 七 八 天 的 样子 大 概 是 说 着 好 玩 的 。 但 是 ,你 知道 吗 ? 如 果 他 说 他 准备 把 
Facebook. com 当 作 他 的 终生 事业 ,可 能 《哈佛 深 红 报 》 的 读者 ,甚至 是 已 迷 上 他 的 社交 网 
站 的 忠实 粉丝 们 ,都 不 会 相信 他 的 话 。 也 许 , 作 为 一 个 自称 很 容易 感到 无 聊 的 人 ,他 并 没 
有 意识 到 他 已 把 Facebook 打造 成 了 一 道 永恒 的 风景 线 。 

资料 来 源 : 乐 学 ,腾讯 科技 2016 年 2 月 7 日 
【实验 与 思考 】 


部 外 大 数据 技术 


1. 实验 目的 


(1) 熟悉 大 数据 技术 的 基本 概念 ,了 解 大 数据 的 技术 架构 ; 
(2) 了 解 大 数据 的 运用 形式 、 分 类 及 级 别 ; 
(3) 了 解 大 数据 技术 的 主要 内 容 。 


2. 工具 /准备 工作 
在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 。 
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等 1 霹 委 箭 内 入 罗 的 的 不 


需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 。 
3. 实验 内 容 与 步骤 


(1) 请 结合 查阅 相关 文献 资料 , 简 述 什么 是 “摩尔 定律 ?? 为 什么 说 “大 数据 带 给 我 们 
的 是 一 种 意义 更 为 深远 的 摩尔 定律 ?? 
答 : 


(2) 请 简单 描述 适合 大 数据 的 4 层 堆栈 式 技术 架构 。 
答 : 
基础 层 : 


管理 层 : 


分 析 层 : 


应 用 层 : 


(3) 什么 是 SNS( 软 件 )? 请 简单 描述 六 度 理论 。 
答 : 


(4) 请 简 述 什么 是 Hadoop? 
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(5) 请 简 述 什么 是 NoSQL? 
答 : 


4. 实验 总 结 


5. 实验 评价 (教师 ) 


数据 科学 与 数据 科学 家 


【导读 案例 】 
智能 大 数据 分 析 成 热点 


2012 年 ,“ 大 数据 ”一 词 开始 大 热 , 几 年 来 ,已 经 在 商业 、 工 业 、 交 通 、 医 疗 、 社 会 管理 等 
多 方面 有 了 应 用 ,如 今 ,已 经 少 有 人 讲 重 要 
性 ,更 多 是 应 用 、 技 术 以 及 最 底层 的 算法 
(图 11-1)。 

有 专家 曾经 对 2015 年 大 数据 发 展 做 过 预 
测 , 共 有 10 个 方面 。 首 先 就 是 结合 智能 计算 
的 大 数据 分 析 成 为 热点 ,包括 大 数据 与 神经 计 
算 、 深 度 学 习 、 语 义 计算 以 及 人 工 智 能 其 他 相 
关 技 术 结 合 ,成 为 大 数据 分 析 领 域 的 热点 。 

第 二 点 是 数据 科学 将 带动 多 学 科 融 合 ， 图 11-1 数据 科学 
但 是 数据 科学 作为 新 兴 的 学 科 , 其 学 科 基 础 
问题 体系 尚 不 明 关 ,数据 科学 自身 的 发 展 尚未 成 体系 。 

第 三 是 跨 学 科 领 域 交叉 的 数据 融合 分 析 与 应 用 将 成 为 今后 大 数据 分 析 应 用 发 展 的 重 
大 趋势 。 大 数据 技术 发 展 的 目标 是 应 用 落地 ,因此 大 数据 研究 不 能 仅 局 限于 计算 技术 
本 身 。 

大 数据 将 与 物 联网 、 移 动 互联 \ 云 计算 、 社 会 计算 等 热点 技术 领域 相互 交叉 融合 ,产生 
很 多 综合 性 应 用 。 近 年 来 计算 机 和 信息 技术 发 展 的 趋势 是 ,前 端 更 前 伸 , 后 端 更 强大 。 物 
联网 与 移动 计算 加 强 了 与 物理 世界 和 人 的 融合 ,大 数据 和 云 计算 加 强 了 后 端的 数据 存储 
管理 和 计算 能 力 。 今 后 ,这 几 个 热点 技术 领域 将 相互 交叉 融合 ,产生 很 多 综合 性 应 用 。 

此 外 ,十 大 趋势 还 包括 : 大 数据 多 样 化 处 理 模式 与 软 硬 件 基础 设施 逐步 夯实 ;大 数据 
的 安全 和 隐私 问题 持续 令 人 担忧 ;新 的 计算 模式 将 取得 突破 ;各 种 可 视 化 技术 和 工具 提升 
大 数据 分 析 ; 大 数据 技术 课程 体系 建设 和 人 才 培 养 是 需要 高 度 关注 的 问题 ;开源 系统 将 成 
为 大 数据 领域 的 主流 技术 和 系统 选择 。 

对 于 大 数据 研究 的 难点 ,很 多 人 把 数据 公开 列 在 第 一 位 。 对 于 政府 部 门 的 难点 在 于 
公开 的 尺度 ,另外 是 否 有 能 力 把 数据 用 好 。 而 指望 商业 公司 拿 出 数据 .不 现实 ,因为 这 些 
数据 的 获得 是 商业 公司 的 投入 。 


另外 ,大 数据 人 才 也 是 一 个 重要 问题 。 现 在 的 问题 是 既 对 行业 熟悉 ,又 能 融合 创新 的 
顶尖 人 才 稀 少 。 现 在 要 让 企业 和 研究 者 明白 一 点 ,数据 不 是 在 谁 手中 , 谁 就 有 优势 ,而 是 
要 大 家 一 起 研究 ,融合 跨 界 研 究 , 数 据 才 会 产生 财富 。 

阅读 上 文 , 请 思考 、 分 析 并 简单 记录 : 

(1) 你 认为 文中 预测 的 大 数据 发 展 的 10 个 方面 ,已 经 实现 的 是 全 部 还 是 部 分 ? 哪些 
方面 实现 了 ? 哪些 方面 尚未 实现 ? 

答 : 


(2) 对 于 大 数据 ,如 今 “已 经 少 有 人 讲 重要 性 ,更 多 是 应 用 、 技 术 以 及 最 底层 的 算法 ”， 
那么 ,应 用 的 热点 是 什么 ? 请 简 述 之 。 
答 : 


(3) 文中 称 “ 对 于 大 数据 研究 的 难点 ,很 多 人 把 数据 公开 列 在 第 一 位 ”, 你 是 否 同 意 这 
样 的 观点 ? 为 什么 ? 
答 : 


(4) 请 简单 描述 你 所 知道 的 上 一 周 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
答 : 


111 什么 是 数据 科学 


每 当 提 及 “数据 科学 (Data Science, 图 11-2) ,人们 总 会 联想 到 另 一 个 含义 相近 的 名 
词 一 一 “商业 智能 ”(Business Intelligence,.BI) 。 商 业 智能 致力 于 使 用 一 组 统一 的 衡量 标 
准 来 评估 企业 过 去 的 绩效 指标 ,并 用 于 后 续 的 业务 规划 。 这 包括 建立 关键 绩效 指标 (Key 
Performance Indicator,KPI) ,用 于 表示 评估 业务 的 最 基本 的 衡量 标准 。 测 量 尺度 和 关键 
绩效 指标 通常 都 是 在 联机 分 析 处 理 模 式 (OLAP Schema) 中 定义 ,使 得 商业 智能 报表 的 内 
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容 能 够 基于 已 定义 的 衡量 标准 。 


图 11-2 数据 科学 


商业 智能 的 典型 技术 和 数据 类 型 包括 : 

(1) 标准 和 满足 特定 需求 的 报表 、 信 息 面板 、 警 报 、 查 询 及 细节 ; 

(2) 结构 化 数据 、 传 统 数据 源 、 易 操作 的 数据 集 。 

数据 科学 可 以 简单 地 理解 为 预测 分 析 和 数据 挖掘 ,是 统计 分 析 和 机 器 学 习 技术 的 结 

合 ,用 于 获取 数据 中 的 推断 和 洞察 力 。 相 关 方 法 包括 回归 分 析 、 Sh 
入》 分 析 ) 、 优 化 技术 和 仿真 (比如 蒙特 卡 罗 仿 真 用 于 构建 场景 结果 

数据 科学 的 典型 技术 和 数据 类 型 包括 : 

(1) 优化 模型 预测 模型 预报、 统计 分 析 ; 

(2) 结构 化 / 非 结构 化 数据 .多 种 类 型 数据 源 .超大 数据 集 。 

商业 智能 和 数据 科学 都 是 企业 所 需要 的 ,用 于 应 对 不 断 出 现 的 各 种 商业 挑战 。 商 业 
智能 和 数据 科学 有 不 同 的 定位 和 范畴 ,商业 智能 更 关注 于 过 去 的 旧 数 据 ,其 结果 的 商业 价 
值 相 对 较 低 ;而 数据 科学 更 着 眼 于 新 数据 和 对 未 来 的 预测 ,其 商业 价值 相对 更 高 。 但 是 ， 
它们 并 不 存在 一 个 明确 的 划分 ,只 是 各 有 偏重 而 已 。 

大 数据 需要 数据 科学 ,数据 科学 要 做 到 的 不 仅 是 存储 和 管理 ,而 是 预测 式 的 分 析 ( 比 
如 如 果 这 样 做 ,会 发 生 什 么 )。 数 据 学 科 是 统计 学 的 论证 ,真正 利用 到 统计 学 的 力量 。 只 
有 这 样 才 能 够 从 数据 中 获得 经 验 和 未 来 方向 的 指导 。 但 是 ,数据 科学 并 非 简 单 的 统计 学 
需要 新 的 应 用 、 新 的 平台 和 新 的 数据 观 , 而 不 仅 是 现 有 的 传统 的 基础 架构 与 软件 平台 。 


112 数据 分 析 生 命 周期 模型 


数据 分 析 生 命 周 期 模型 (Data Analytics Lifecycle) 是 一 个 用 于 分 析 型 项 目的 流程 
2 
通常 很 多 问题 看 上 去 相当 复杂 难 解 a dl 
将 复杂 的 问题 分 解 成 更 容易 处 理 的 小 步骤 。 使 用 一 个 好 的 流程 去 进行 分 析 是 极 
的 ,因为 它 既 有 助 于 实现 全 面 且 可 重复 实施 的 分 析 方 法 ,又 可 以 让 数据 科学 家 把 必要 的 精 
力 尽早 地 放 在 那些 可 以 掌握 问题 重点 的 步骤 中 。 
人 们 经 常 不 愿意 花 太 多 的 时 间 去 做 大 量 的 计划 、 调 研 或 者 问题 解构 等 工作 ,而 是 急于 
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开始 收集 和 分 析 数 据 。 这 样 做 很 可 能 出 现 的 结果 是 : 项 目 成 员 在 中 途 发 现 正 在 尝试 解决 
的 问题 和 项 目 发 起 人 的 目的 截然 不 同 或 者 与 之 前 沟通 的 结果 不 一 样 。 创 建 并 文档 化 一 个 
流程 将 有 助 于 展示 项 目的 分 析 结果 的 严谨 性 。 当 我 们 谈 及 发 现 的 结果 时 ,这 将 能 为 项 目 
提供 额外 的 可 信和 度 。 这 个 流程 还 使 我 们 能 够 去 教 别 人 如 何 使 用 这 些 方法 和 分 析 , 以 使 得 
它 是 可 以 在 下 个 季度 、 下 一 年 或 者 被 新 的 员工 重复 使 用 的 。 

与 着 眼 于 获取 关键 绩效 指标 或 者 实现 信息 面板 功能 的 项 目 相 比 ,数据 科学 项 目 还 是 
会 有 些 相似 的 步 又 。 例 如 ,对 于 任何 新 的 项 目 , 还 会 有 “探索 发 现 阶 段 ", 只 是 侧重 点 不 大 
一 样 。 不 同 的 是 ,数据 科学 项 目 更 偏重 于 那些 缺乏 良好 结构 化 的 方法 和 问题 ,有 些 流程 会 
有 不 同 , 也 会 增加 些 新 的 步 台 。 比 方 说 ,对 于 一 个 商业 智能 项 目 , 由 于 不 会 用 到 分 类 模型 ， 
建立 训练 数据 集 是 不 需要 的 。 但 是 对 于 一 个 数据 科学 项 目 来 说 ,建立 分 类 模型 和 训练 数 
据 集 是 很 常见 的 事 。 此 外 ,商业 智能 的 项 目 偏重 于 依赖 数据 仓库 和 联机 分 析 处 理 多 维 数 
据 集 (OLAP Cube) 中 的 高 度 结构 化 的 数据 。 数 据 科 学 除了 处 理 高 度 结构 化 数据 ,还 处 理 
大 数据 、 稀 朴 数 据 集 和 非 结 构 化 数据 一 一 它 需 要 做 额外 的 工作 以 准备 和 过 滤 数 据 。 

如 图 11-3 所 示 ,数据 分 析 周 期 模型 中 共有 6 个 阶段 。 从 任何 一 步 都 可 以 进入 到 其 下 
一 步 ,或 者 又 回 到 之 前 的 一 步 ,这 种 反复 移动 可 能 贯穿 于 整个 生命 周期 中 。 那 些 标示 出 的 
问题 是 用 来 评估 是 否 已 经 具备 足够 的 信息 或 者 进度 可 以 进入 流程 的 下 一 步 。 


a pd 
en ee 


图 11-3 数据 分 析 生 命 周 期 模型 


数据 分 析 生 命 周 期 模型 描述 了 一 种 针对 端 到 端 分 析 过 程 (从 发 现 到 项 目 完成 ) 的 最 佳 
实践 方法 。 并 且 ,其 中 一 些 用 于 改进 模型 的 步骤 来 源 于 数据 分 析 和 决策 科学 范畴 中 已 有 
的 方法 。 这 些 已 有 的 方法 提供 了 流程 中 的 一 部 分 或 者 使 用 不 同 术语 的 类 似 概念 。 

从 图 11-3 可 以 看 到 ,在 一 个 阶段 中 ,人 们 经 常会 了 解 一 些 新 的 东西 ,使 得 人 们 返回 或 
者 改进 前 一 个 阶段 的 工作 ,给 出 人 们 没有 发 现 的 新 的 理解 和 信息 。 由 于 这 个 原因 ,生命 周 
期 模型 图 显示 成 一 个 圆 环 ,而 环形 箭头 表示 可 以 在 两 个 阶段 间 反 复 移动 ,直到 有 足够 的 信 
息 可 以 再 向 前 移动 。 和 矩形 标注 表示 的 是 一 组 自问 自 答 的 问题 ,用 来 评估 是 否 已 经 具有 足 
够 的 信息 和 进度 可 以 进入 流程 的 下 一 个 阶段 。 这 里 没有 正式 的 阶段 考核 ,但 是 可 以 作为 
准则 用 来 帮助 测试 是 否 应 该 待 在 现 阶 段 还 是 进入 到 下 一 个 阶段 。 

下 面 分 别 介绍 一 下 数据 分 析 生 命 周期 模型 中 的 6 个 阶段 。 
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1. 探索 发 现 


了 解 业务 领域 ,包括 相关 的 历史 ,比如 ,企业 或 业务 部 门 是 否 在 过 去 曾经 尝试 过 类 似 
的 项 目 ,结果 是 怎样 的 。 评 估 项 目 要 具备 的 资源 ,比如 人 、 技 术 、 时 间 和 数据 。 将 业务 问题 
构建 成 一 个 用 于 后 续 逐 步 解 决 的 分 析 问 题 。 构 想 出 用 以 验证 的 最 初 假设 ,并 开始 了 解 
数据 。 


2 数据 准备 


为 在 项 目 期 间 的 工作 准备 一 个 分 析 沙 盒 。 执 行 ELT(Extract-Load-Transform，, 抽 
取 - 加 载 -转换 ) 和 ETL(Extract-Transform-Load, 抽 取 - 转 换 -加 载 ) 来 为 沙 盒 获取 数据 ,并 
开始 做 数据 转换 ,使 能 够 基于 它 来 进行 分 析 。 彻 底 地 熟悉 数据 ,并 采取 措施 来 调整 数据 。 


3. 模型 规划 


确定 计划 采用 的 方法 .技术 和 流程 ,并 评估 模型 。 仔 细 查 看 数据 ,了 解 变 量 之 间 的 关 
系 , 随 后 选择 可 能 使 用 的 关键 变量 和 模型 。 


4 模型 建造 

开发 数据 集 分 别 用 于 测试 .训练 和 生产 目的 。 尽 量 使 用 最 好 的 环境 来 执行 模型 和 工 
作 流 ,包括 更 快 的 硬件 和 并 行 处 理 能 力 。 

5 沟通 结果 

基于 在 发 现 阶段 和 项 目 干 系 人 一 起 建立 的 标准 ,判定 分 析 是 成 功 还 是 失败 。 确 定 关 
键 发 现 , 量 化 商业 价值 ,然后 描述 总 结 发 现 , 并 传达 给 项 目 干系 人 。 

6 项 目 实施 


交付 终 期 报告 .简报 代码 和 技术 文档 。 启 动 一 个 试点 项 目 ,并 在 生产 环境 中 实现 

非常 重要 的 一 点 是 ,一 旦 运行 了 模型 ,并 产生 了 结果 ,就 要 确保 能 够 使 用 一 种 对 听众 
来 说 合适 的 方式 ,来 清晰 地 展示 出 这 些 结果 的 价值 。 如 果实 施 了 技术 上 准确 的 分 析 , 但 是 
不 能 将 结果 翻译 成 一 种 能 够 说 给 听众 的 语言 ,人 们 将 不 会 看 到 价值 ,那么 时 间 就 白花 了 。 


113 数据 科学 家 


通常 ,企业 自身 业务 所 产生 的 数据 ,再 加 上 政府 公开 的 统计 数据 ,还 有 与 数据 聚合 商 
等 其 他 公司 结 成 的 战略 联盟 等 ,通过 这 些 手 段 就 可 以 获得 业务 上 所 需 的 数据 了 。 

从 技术 方面 来 看 ,硬盘 价格 下 降 ,NoSQL 数据 库 等 技术 的 出 现 , 使 得 和 过 去 相 比 ,大 
量 数据 能 够 以 廉价 高 效 的 方式 进行 存储 。 此 外 , 像 Hadoop 这 样 能 够 在 通用 性 服务 器 上 
工作 的 分 布 式 处 理 技术 的 出 现 , 也 使 得 对 庞大 的 非 结构 化 数据 进行 统计 处 理 的 工作 比 以 
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往 更 快速 且 更 廉价 。 

然而 ,就 算 所 拥有 的 工具 再 完美 ,工具 本 身 是 不 可 能 让 数据 产生 价值 的 。 事 实 上 ,我 
们 还 需要 能 够 运用 这 些 工具 的 专门 人 才 ,他们 能 够 从 堆积 如 山 的 大 量 数 据 中 找到 金 矿 ,并 
将 数据 的 价值 以 易 懂 的 形式 传达 给 决策 者 ,最 终 得 以 在 业务 上 实现 。 具 备 这 些 技能 的 人 
才 就 是 数据 科学 家 (图 11-4)。 


图 11-4 数据 科学 家 


数据 科学 家 很 可 能 是 如 今 最 热门 的 头衔 之 一 ,他 们 是 数据 科学 行业 的 高 层 人 才 。 数 
据 科 学 家 会 利用 最 新 的 科技 手段 处 理 原始 数据 ,进行 必要 的 分 析 , 并 以 一 种 信息 化 的 方式 
将 获得 的 知识 展示 给 他 的 同事 。 
11.3.1 大 数据 生态 系统 中 的 关键 角色 

大 数据 的 出 现 , 催 生 了 新 的 数据 生态 系统 。 为 了 提供 有 效 的 数据 服务 , 它 需 要 三 种 典 
型 角色 。 表 11-1 介绍 了 这 三 种 角色 ,以 及 每 种 角色 具有 代表 性 的 专业 人 员 举 例 。 

表 11-1 新 数据 生态 系统 中 的 三 个 关键 角色 
描述 专业 人 员 举例 

通过 定量 学 科 (例如 数学 .统计 学 和 机 器 学 习 ) 高 等 训练 的 ee 
人 员 : 精通 技术 ,具有 非常 强 的 分 析 技 能 和 处理 原始 数据 、| 数据 科学 家 、 统 计 学 家 、 经 


Sh 非 结构 化 数据 的 综合 能 力 ,熟悉 大 规模 复杂 分 析 技术 入 和 


金融 分 析 师 、 市 场 研究 分 
析 师 .生命 科学 家 、 运 营 经 
理 、 业 务 和 职能 经 理 


技术 和 数据 | 提供 专业 技术 用 于 支持 分 析 型 项 目的 人 员 : 技能 包括 计算 | 计算 机 程序 员 、 数 据 库 管 
的 使 能 者 ”| 机 程序 设计 和 数据 库 管理 理 员 、 计 算 机 系统 分 析 师 


数据 理解 专 | 具有 统计 学 和 /或 机 器 学 习 基本 知识 的 人 员 : 知道 如 何 定 
业 人 员 义 使 用 先进 分 析 方 法 可 以 解决 的 关键 问题 


典型 的 分 析 型 项 目 需 要 多 种 角色 。 值 得 注意 的 是 ,数据 科学 家 自身 结合 了 多 种 以 前 
被 分 离 的 技能 ,成 为 一 个 单一 的 角色 。 以 前 是 不 同 的 人 用 于 一 个 项 目的 各 个 方面 ,比如 ， 
有 的 人 去 应 对 业务 线 上 的 终端 用 户 , 另 外 的 具有 技术 和 定量 专长 的 人 去 解决 分 析 问 题 。 
数据 科学 家 是 这 些 方 面 的 结合 体 , 有 助 于 提供 连续 性 的 分 析 过 程 。 

对 数据 科学 家 的 关注 , 源 于 大 家 逐步 认识 到 ,Google、Amazon、Facebook 等 公司 成 功 
的 背后 ,存在 着 这 样 的 一 批 专业 人 才 。 这 些 互联 网 公司 对 于 大 量 数据 不 是 仅 进行 存储 而 
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已 ,而 是 将 其 变 为 有 价值 的 金 矿 一 一 例如 ,搜索 结果 、 定 向 广告 、 准 确 的 商品 推荐 .可 能 认 
识 的 好 友 列 表 等 。 

数据 科学 是 一 个 很 久之 前 就 存在 的 词汇 ,但 数据 科学 家 却 是 几 年 前 突然 出 现 的 一 个 
新 词 。 关 于 这 个 词 的 起 源 说 法 不 一 , 其 中 在 《数据 之 美 》(Toby Segaran, Jeff 
Hammerbacher 编著 ) 一 书 中 ,对 于 Facebook 的 数据 科学 家 ,有 如 下 叙述 : 


“在 Facebook ,我 们 发 现 传统 的 头衔 如 商业 分 析 师 、 统 计 学 家 、 工 程 师 和 研究 科学 家 
都 不 能 确切 地 定义 我 们 团队 的 角色 。 该 角色 的 工作 是 变化 多 样 的 : 在 任意 给 定 的 一 天 ， 
团队 的 一 个 成 员 可 以 用 Python 实现 一 个 多 阶段 的 处 理 管 道 流 、. 设 计 假 设 检验 .用 工具 及 
在 数据 样本 上 执行 回归 测试 ,在 Hadoop 上 为 数据 密集 型 产品 或 服务 设计 和 实现 算法 ,或 
者 把 我 们 分 析 的 结果 以 清晰 简洁 的 方式 展示 给 企业 的 其 他 成 员 。 为 了 掌握 完成 这 多 方面 
任务 需要 的 技术 ,我 们 创造 了 “数据 科学 家 ?这 种 角色 。”。 

仅仅 在 几 年 前 ,数据 科学 家 还 不 是 一 个 正式 确定 的 职业 ,然而 很 快 ,这 个 职业 就 已 经 
被 誉 为 “今后 10 年 IT 行业 最 重要 的 人 才 ” 了 。 

Google 首席 经 济 学 家 加州 大 学 伯克利 分 校 教授 哈 尔 。 范 里 安 (1947 一 ) 在 2008 
年 10 月 与 麦肯锡 总 监 James Manyika 先生 的 对 话 中 ,曾经 讲 过 下 面 一 段 话 。 

“我 总 是 说 ,在 未 来 10 年 里 ,最 有 意思 的 工作 将 是 统计 学 家 。 人 们 都 认为 我 在 开 玩 
笑 。 但 是 ,过 去 谁 能 想到 计算 机 工程 师 会 成 为 20 世纪 90 年 代 最 有 趣 的 工作 ? 在 未 来 10 
年 里 ,获取 数据 一 一 以 便 能 理解 它 、 处 理 它 、 从 中 提取 价值 .使 其 形象 化 传送 它 一 一 的 能 
力 将 成 为 一 种 极其 重要 的 技能 ,不 仅 在 专业 层面 上 是 这 样 ,而 且 在 教育 层面 (包括 对 中 小 
学 生 、 高 中 生 和 大 学 生 的 教育 ) 也 是 如 此 。 由 于 如 今 我 们 已 真正 拥有 实质 上 免费 的 和 无 所 
不 在 的 数据 ,因此 ,与 此 互补 的 稀缺 要 素 是 理解 这 些 数据 并 从 中 提取 价值 的 能 力 。” 

范 里 安 教 授 在 当初 的 对 话 中 使 用 的 是 statisticians( 统 计 学 家 ) 一 词 ,虽然 当时 他 没有 
使 用 数据 科学 家 这 个 词 ,但 这 里 所 指 的 , 正 是 现在 我 们 所 讨论 的 数据 科学 家 。 

数据 科学 家 的 关键 活动 包括 : 

(1) 将 商业 挑战 构建 成 数据 分 析 问 题 ; 

(2) 在 大 数据 上 设计 实现 和 部 署 统计 模型 和 数据 挖掘 方法 ; 

(3) 获取 有 助 于 引领 可 操作 建议 的 洞察 力 。 


11.3.2 数据 科学 家 所 需 的 技能 

数据 科学 家 这 一 职业 并 没有 固定 的 定义 ,但 大 体 上 指 的 是 这 样 的 人 才 :“ 是 指 运用 统 
计 分 析 、 机 器 学 习 、 分 布 式 处 理 等 技术 ,从 大 量 数据 中 提取 出 对 业务 有 意义 的 信息 ,以 易 懂 
的 形式 传达 给 决策 者 ,并 创造 出 新 的 数据 运用 服务 的 人 才 。” 

数据 科学 家 所 需 的 技能 如 下 。 

1. 计算 机 科学 


一 般 来 说 ,数据 科学 家 大 多 要 求 具备 编程 .计算 机 科学 相关 的 专业 背景 。 简 单 来 说 ， 
就 是 对 处 理 大 数据 所 必需 的 Hadoop、Mahout 等 大 规模 并 行 处 理 技 术 与 机 器 学 习 相关 的 
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技能 。 
2 数学、 统计、 数据 控 扬 等 


除了 数学 .统计 方面 的 素养 之 外 ,还 需要 具备 使 用 SPSS、SAS 等 主流 统计 分 析 软 件 
的 技能 。 其 中 ,面向 统计 分 析 的 开源 编程 语言 及 其 运行 环境 R 最 近 备 受 瞩目 。R 的 强项 
不 仅 在 于 其 包含 丰富 的 统计 分 析 库 ,而且 具 备 将 结果 进行 可 视 化 的 高 品质 图 表 生 成 功能 ， 
并 可 以 通过 简单 的 命令 来 运行 。 此 外 , 它 还 具备 称 为 CRAN (The Comprehensive R 
Archive Network) 的 包 扩展 机 制 ,通过 导入 扩展 包 就 可 以 使 用 标准 状态 下 所 不 支持 的 函 
数 和 数据 集 。 


3. 数据 可 视 化 


信息 的 质量 很 大 程度 上 依赖 于 其 表达 方式 。 对 数字 罗列 所 组 成 的 数据 中 所 包含 的 意 
义 进行 分 析 , 开 发 Web 原型 ,使 用 外 部 API 将 图 表 、 地 图 等 其 他 服务 统一 起 来 ,从 而 使 分 
析 结 果 可 视 化 ,这 是 对 于 数据 科学 家 来 说 十 分 重要 的 技能 之 一 。 

将 数据 与 设计 相 结 合 , 让 上 涩 难 懂 的 信息 以 易 懂 的 形式 进行 图 形 化 展现 的 信息 图 最 
近 正 受到 越 来 越 多 的 关注 ,这 也 是 数据 可 视 化 的 手法 之 一 (图 11-5)。 


Sm I TT 
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图 11-5 信息 图 的 示例 


作为 参考 ,下 面 节选 了 Facebook 和 推 特 的 数据 科学 家 招聘 启事 。 对 于 现实 中 的 企业 
需要 怎样 的 技能 ,这 则 启事 应 该 可 以 为 大 家 提供 一 些 更 实际 的 体会 。 


Facebodk 接 聘 数 据 科学 家 


Facebook 计划 为 数据 科学 团队 招聘 数据 科学 家 。 应 聘 该 岗位 的 人 ,将 担任 软件 工程 
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师 、 量 化 研究 员 的 工作 。 理 想 的 候选 人 应 对 在 线 社交 网 络 的 研究 有 浓厚 兴趣 ,能 够 找 出 创 
造 最 佳 产品 过 程 中 所 遇 到 的 课题 ,并 对 解决 这 些 课题 拥有 热情 。 
职务 内 容 
。 确定 重要 的 产品 课题 ,并 与 产品 工程 团队 密切 合作 寻求 解决 方案 
。 通过 对 数据 运用 合适 的 统计 技术 来 解决 课题 
。 将 结论 传达 给 产品 经 理 和 工程 师 
。 推进 新 数据 的 收集 以 及 对 现 有 数据 源 的 改良 。 对 产品 的 实验 结果 进行 分 析 和 
解读 
。 找到 测量 、 实 验 的 最 佳 实践 方法 ,传达 给 产品 工程 团队 
必要 条 件 
。 相关 技术 领域 的 硕士 或 博士 学 位 ,或 者 具备 4 年 以 上 相关 工作 经 验 
。 对 使 用 定量 手段 解决 分 析 性 课题 拥有 丰富 的 经 验 
。 能 够 轻松 操作 和 分 析 来 自 各 方 的 复杂 且 大 量 的 多 维 数据 
。 对 实证 性 研究 以 及 解决 数据 相关 的 难题 拥有 极 大 的 热情 
。 能 对 各 种 精度 级 别 的 结果 采用 灵活 的 分 析 手 段 
。 具备 以 实际 、 准 确 且 可 行 的 方法 传达 复杂 定量 分 析 的 能 力 
。 至 少 热 练 掌握 一 种 脚本 语言 ,如 Python、PHP 等 
。 精通 关系 型 数据 库 和 SQL 
。 对 RMATLAB、SAS 等 分 析 工 具 具 备 专 业 知识 
。 具备 处 理 大 量 数据 集 的 经 验 ,以 及 使 用 MapReduce、Hadoop、Hive 等 分 布 式 计 算 
工具 的 经 验 
推 特 招聘 数据 科学 家 (负责 增加 用 户 数量 ) 
关于 业务 内 容 
推 特 计划 招聘 能 够 为 增加 其 用 户 数 提供 信息 和 方向 、 具 备 行动 力 和 高 超 技 能 的 人 才 。 
应 聘 者 需要 具备 统计 和 建 模 方面 的 专业 背景 ,以 及 大 规模 数据 集 处 理 方面 的 丰富 经 验 。 
我 们 期 待 应 聘 者 所 具有 的 判断 力 能 够 在 多 个 层面 上 决定 推 特产 品 群 的 方向 。 
职责 
。 使 用 Hadoop、Pig 编写 MapReduce 格式 的 数据 分 析 
。 能 够 针对 临时 数据 挖 气流 程 和 标准 数据 挖 气流 程 编 写 复 杂 的 SQL 查询 
。 能 够 使 用 SQL 、 Pig、 脚本 语言 统计 软件 包 编 写 代码 
。 以 口头 及 书面 形式 对 分 析 结 果 进 行 总 结 并 做 出 报告 
。 每 天 对 数 TB 规模 、10 亿 条 以 上 事务 级 别 的 大 规模 结构 化 及 非 结构 化 数据 进行 
处 理 
必要 条 件 
。 计 算 机 科学 、 数 学 、 统 计 学 的 硕士 学 位 或 者 同等 的 经 验 
。 两 年 以 上 数据 分 析 经 验 
。 大 规模 数据 集 及 Hadoop 等 MapReduce 架构 方面 的 经 验 
。 脚本 语言 及 正则 表达 式 等 方面 的 经 验 
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。 对 离散 数学 统计、 概率 方面 感 兴趣 
。 将 业务 需求 映射 到 工程 系统 方面 的 经 验 


11.3.3 数据 科学 家 所 需 的 素质 


仅 四 五 年 前 ,对 数据 科学 家 的 需求 还 仅 限 于 谷歌 .亚马逊 等 互联 网 企业 中 。 然 而 在 最 
近 ,重视 数据 分 析 的 企业 ,无 论 是 哪个 行业 ,都 在 积极 招募 数据 科学 家 。 

通常 ,数据 科学 家 所 需要 具备 的 素质 有 以 下 这 些 。 

(1) 沟通 能 力 : 即便 从 大 数据 中 得 到 了 有 用 的 信息 ,但 如 果 无 法 将 其 在 业务 上 实现 ， 
其 价值 就 会 大 打折 扣 。 为 此 , 面 对 缺 乏 数据 分 析 知 识 的 业务 部 门 员工 以 及 经 营 管理 层 ,将 
数据 分 析 的 结果 有 效 传达 给 他 们 的 能 力 是 非常 重要 的 。 

(2) 创业 精神 : 以 世界 上 尚 不 存在 的 数据 为 中 心 创造 新 型 服务 的 创业 精神 ,也 是 数 
据 科 学 家 所 必需 的 一 个 重要 素质 。 谷 歌 .亚马逊 .Facebook 等 通过 数据 催生 出 新 型 服务 
的 企业 ,都 是 通过 对 庞大 的 数据 到 底 能 创造 出 怎样 的 服务 进行 艰苦 的 探索 才 获 得 成 功 的 。 

(3) 好 奇 心 : 庞大 的 数据 背后 到 底 隐 藏 着 什么 ,要 找 出 答案 需要 很 强 的 好 奇 心 。 除 
此 之 外 ,成 功 的 数据 科学 家 都 有 一 个 共同 点 , 即 并 非 局 限于 艺术 技术、 医疗 .自然 科学 等 
特定 领域 ,而 是 对 各 个 领域 都 搜 有 旺盛 的 好 奇 心 。 通 过 对 不 同 领域 数据 的 整合 和 分 析 ,就 
有 可 能 发 现 以 前 从 未 发 现 过 的 有 价值 的 观点 。 

美国 的 数据 科学 家 大 多 拥有 丰富 的 从 业经 历 . 如 实验 物理 学 家 、 计 算 机 化 学 家 海洋 
学 家 ,甚至 是 神经 外 科 医生 等 。 也 许 有 人 认为 这 是 人 才 流 动 性 高 的 美国 所 特有 的 现象 ,但 
在 中 国 , 也 出 现 了 一 些 积极 招募 不 同 职业 背景 人 才 的 企业 ,这 样 的 局 面 距离 我 们 已 经 
不 再 遥远 。 

数据 科学 家 需要 具备 广泛 的 技能 和 素质 ,因此 预计 这 一 职位 将 会 陷入 供不应求 的 状 
态 。 例 如 ,麦肯锡 全 球 研究 院 (MGI) 在 2011 年 5 月 发 表 的 题 为 “大 数据 : 未 来 创新 、 竞 
争 、 生 产 力 的 指向 标 ” 的 报告 中 指出 ,在 美国 具备 高 度 分 析 技 能 的 人 才 ( 大 学 及 研究 生 院 中 
学 习 统 计 和 机 器 学 习 专 业 的 学 生 ) 供 给 量 ,2008 年 为 15 万 人 ,预计 到 2018 年 将 翻 一 番 ， 
达到 30 万 人 。 然 而 ,预计 届时 对 这 类 人 才 的 需求 将 超过 供给 ,达到 44 万 一 49 万 人 的 规 
模 , 这 意味 着 将 产生 14 万 一 19 万 的 人 才 缺 口 。 

大 型 IT 厂商 EMC 在 2011 年 12 月 发 表 的 一 份 关于 数据 科学 家 的 调查 报告 EMC 
Data Science Study 中 提出 了 一 些 非常 有 意思 的 见解 。 

该 调查 的 对 象 包括 美国 .英国 法 国 、 德 国 .印度 . 中 国 的 数据 科学 家 ,以 及 商业 智能 专 
家 等 IT 部 门 的 决策 者 ,共计 462 人 。 除 此 之 外 ,EMC 还 从 2011 年 5 月 在 拉 斯 维 加 斯 召 
开 的 “数据 科学 家 峰会 ”的 参加 者 ,以 及 在 线 数据 科学 家 社区 Kaggle 中 邀请 了 35 人 参加 
这 项 调查 。 该 调查 结果 的 要 点 如 下 。 

首先 ,三 分 之 二 的 参加 者 认为 数据 科学 家 供不应求 。 这 一 点 与 前 面 提 到 的 麦肯锡 的 

告 是 相同 的 。 

对 于 新 的 数据 科学 家 供给 来 源 , 有 三 分 之 一 的 人 期 待 “ 计 算 机 科学 专业 的 学 生 ”, 排 名 第 
一 ,而 男 一 方面 ,期 待 现 有 商业 智能 专家 的 却 只 有 12% .这 一 结果 比较 出 人 意料 (图 11-6)。 
也 就 是 说 ,大 部 分 人 认为 ,现在 的 商业 智能 专家 无 法 满足 对 数据 科学 家 的 需求 。 
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商业 智能 专家 : 12% ”其 他 : 3% 


图 11-6 数据 科学 家 人 才 新 的 供给 来 源 


数据 科学 家 与 商业 智能 专家 之 间 的 区 别 在 于 ,从 包括 公司 外 部 数据 在 内 的 数据 获取 
阶段 ,一 直到 基于 数据 最 终 产 生 业 务 上 的 决策 ,数据 科学 家 大 多 会 深入 数据 的 整个 生命 周 
期 。 这 一 过 程 中 也 包括 对 数据 的 过 滤 、 系 统 化 、 可 视 化 等 工作 (图 11-7)。 


新 数据 集 的 获取 PT 33%% 
数据 集 的 分 析 0 0% 
数据 的 过 小 与 系统 化 、 革 《4070 
为 寻找 模式 进行 数据 挖 气 。 革 30%% 
为 解决 分 析 课题 运用 先进 的 算法 二 29% 


以 可 视 化 方式 表现 数据 和 科 人 38% 


用 故事 来 描述 数据 用 和 和 生生 秆 和 34% 


对 数据 进行 动态 处 理 革 ms 37% 


干 井 行 小 入 消 季 ER 407 
基于 数据 进行 业务 决策 四 全 40% 
国 国 数据 科学 家 三 商业 智能 专家 


图 11-7 数据 科学 家 参与 了 数据 的 整个 生命 周期 


关于 数据 科学 家 与 商业 智能 专家 的 专业 背景 :也 有 一 些 很 有 意思 的 调查 结果 。 数 据 
科学 家 在 大 学 大 多 学 习 计算 机 科学 .工程 学 .自然 科学 等 专业 ,而 商业 智能 专家 则 大 多 学 
习 商 业 专业 (图 11-8) 。 而 且 , 和 商业 智能 专家 相 比 ,数据 科学 家 中 拥有 硕士 和 博士 学 位 
的 人 数 也 比较 多 (图 11-9) 。 


11.3.4 数据 科学 家 的 学 习 内 容 


随 着 对 大 数据 分 析 需 求 的 高 涨 , 未 来 必 将 带 来 数据 科学 家 的 严重 不 足 ,为 了 解决 这 一 
问题 ,美国 一 些 大 学 已 经 开始 成 立 分 析 学 专业 。 

以 位 于 伊利 诺 伊 州 芝加哥 郊外 埃 文 斯 顿 市 的 美国 西北 大 学 为 例 , 该 大 学 从 2012 年 9 
月 起 在 其 工程 学 院 下 成 立 一 个 主攻 大 数据 分 析 课 程 的 分 析 学 研究 生 院 ,并 开始 招生 。 西 
北大 学 对 于 成 立 该 研究 生 院 是 这 样 解释 的 :“ 虽 然 只 要 具备 一 些 Hadoop 和 Cassandra 的 
基本 知识 就 很 容易 找到 工作 ,但 拥有 深入 知识 的 人 才 却 是 十 分 缺乏 的 。” 


| 


为 茹 旧时 纶 
人 而 数据 科学 家 则 大 多 学 习 计算 机 科学 、 
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数据 科学 家 MN 商业 智能 专家 
图 11-8 商业 智能 专家 与 数据 科学 家 在 大 学 专业 上 的 对 比 


数据 科学 家 中 有 40% 拥 有 硕士 或 博士 学 位 ， 相 比 之 下 
商业 智能 专家 中 这 一 比例 为 13% 
48% 


37% 


31% 
25% 
14% 
11% 12% 
者 
5% 5% jo 
6 
加 = 


加 
学 (未 


高 职业 学 校 大 学 
A (本 种) 


本 一 数据 科学 家 国王 商业 智能 专家 
图 11-9 商业 智能 专家 与 数据 科学 家 在 学 位 上 的 对 比 


此 外 ,该 研究 生 院 的 课程 计划 以 “传授 和 指导 将 业务 引 向 成 功 的 技能 ,培养 能 够 领导 
项 目 团队 的 优秀 分 析 师 ”为 目标 ,授课 内 容 在 数学 、 统 计 学 的 基础 上 ,融合 了 尖端 计算 机 工 
程 学 和 数据 分 析 。 课 程 预计 将 涵盖 分 析 领 域 中 主要 的 三 种 数据 分 析 方 法 : 预测 分 析 、 描 
述 分 析 ( 商 业 智能 和 数据 挖掘 ) 和 规范 分 析 ( 优 化 和 模拟 )。 具 体内 容 如 下 。 


1. 秋季 学 期 
(1) 数据 挖掘 相关 的 统计 方法 (多 元 Logistic 回归 分 析 、 非 线性 回归 分 析 、 判 别 分 
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析 等 ) 。 
(2) 定量 方法 (时 间 轴 分 析 、 概 率 模型 .优化 )。 
(3) 决策 分 析 ( 多 目的 决策 分 析 、 决 策 树 、 影 响 图、 敏感 性 分 析 )。 
(4) 树立 竞争 优势 的 分 析 ( 通 过 项 目 和 成 功 案例 学 习 基 本 的 分 析 理 念 ) 。 


2 冬季 学 期 
(1) 数据 库 入 门 ( 数 据 模型 .数据库 设计 ) 。 
(2) 预测 分 析 ( 时 间 轴 分 析 、 主 成 分 分 析 、 非 参数 回归 ,统计 流程 控制 ) 。 


(3) 数据 管理 (ETL 数据 治理 ,管理 责任 、 元 数据 )。 
(4) 优化 与 启发 (整数 计划 法 、 非 线性 计划 法 、 局 部 探索 法 、 超 启发 (模拟 退火 、 遗 传 算 


3 春季 学 期 


(1) 大 数据 分 析 ( 非 结构 化 数据 概念 的 学 习 、MapReduce 技术 、 大 数据 分 析 方法 )。 

(2) 数据 挖掘 ( 聚 类 (k-means 法 ,分割 法 ) .关联 性 规则 、 因 子 分 析 、 存 活 时 间 分 析 ) 。 

(3) 其 他 ,以 下 任 选 两 门 ( 社 交 网 络 , 文 本 分 析 , Web 分 析 , 财 务 分 析 , 服 务 业 中 的 分 
析 ,能源 、 健 康 医疗 .供应 链 管理 .综合 营销 沟通 中 的 概率 模型 ) 。 

4 夏季 学 期 

(1) 风险 分 析 与 运营 分 析 的 计算 机 模拟 。 

(2) 软件 层面 的 分 析 学 (组 织 层 面 的 分 析 课题 IT 与 业务 用 户 .变革 管理 、 数 据 课 题 、 
结果 的 展现 与 传达 方法 ) 。 

(3) 毕业 设计 。 
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通常 ,数据 科学 的 实践 需要 三 个 一 般 领 域 的 技能 , 即 : 商业 洞察 、 计 算 机 技术 /编程 和 
统计 学 /数学 。 而 男 一 方面 ,不 同 的 工作 对 象 ,他 的 具体 技能 集合 会 有 所 不 同 。 为 探索 数 
据 科 学 家 应 该 具有 的 职业 技能 ,多 个 研究 项 目 进行 了 不 同 的 探索 ,综合 得 出 数据 科学 从 业 
人 员 相 关 的 25 项 技能 ,如 表 11-2 所 示 。 


表 11-2 数据 科学 中 25 项 技能 


技能 领域 技能 详情 


. 产品 设计 和 开发 


商业 


1 
2 
3. 商业 开发 
4 
5 


.管理 和 兼容 性 (例如 : 安全 性 ) 


大 有 赂 电导 ( 哗 


续 表 
技能 领域 技能 详情 


6. 处 理 非 结构 化 数据 (例如 : NoSQL) 
7. 管理 结构 化 数据 (例如 : SQL JSON XML) 
技术 8. 自然 语言 处 理 (NLP) 和 文本 挖掘 
9 
1 


. 机 器 学 习 ( 例 如 : 决策 树 、 神 经 网 络 ,支持 向 量 机 、 聚 类 ) 
0. 大 数据 和 分 布 式 数据 (例如 : Hadoop、Map/Reduce、Spark) 


11. 最 优化 (例如 : 线性 、 整 数 ,. 凸 优化 全局) 

12. 数学 (例如 : 线性 代数 、 实 变 分 析 、 微 积分 ) 

数学 & 建 模 | 13. 图 模型 (例如 : 社会 网 络 ) 

14. 算法 (例如 : 计算 复杂 性 ,计算 科学 理论 ) 和 仿真 (例如 : 离散 .基于 Agent、 连 续 ) 
15. 贝 叶 斯 统计 (例如 : 马尔 科 夫 链 蒙特 卡 罗 方 法 ) 


16. 系统 管理 (例如 : UNIX) 和 设计 

17. 数据 库 管 理 ( 例 如 : MySQL、NoSQL) 

编程 18. 云 管理 

19. 后 端 编程 (例如 : Java/Rails/Objective C) 
20. 前 端 编程 (例如 : JavaScript, HTML, CSS) 


21. 数据 管理 (例如 : 重 编码 、 去 重复 项 、 整 合 单个 数据 源 、 网 络 抓 取 ) 

22. 数据 挖掘 (例如 : R, Python,， SPSS, SAS) 和 可 视 化 (例如 : 图 形 、 地 图 、 基 于 Web 
的 数据 可 视 化 ) 工 具 

统计 23. 统计 学 和 统计 建 模 (例如 : 一 般 线性 模型 ANOVA、MANOVA、 时 空 数据 分 析 、 
地 理 信息 系统 ) 

24. 科学 /科学 方法 (例如 : 实验 设计 研究 设计 ) 

25. 沟通 (例如 : 分 享 结果 、 写 作 / 发 表 、 展 示 、 博 客 ) 


* 被 访 者 要 求 指出 他 们 对 上 述 25 项 技能 有 多 熟悉 ,使 用 这 样 的 量 表 : 不 知道 (0), 略 知 (20) ,新 手 (40) ,熟练 
《60) ,非常 熟练 (80) ,专家 (100) 。 


11.4.1 数据 科学 技能 和 熟练 程度 


表 11-2 中 列 出 的 这 25 项 技能 ,反映 了 通常 与 数据 科学 家 相关 的 技能 集合 。 在 进行 
针对 数据 科学 家 的 调查 中 ,调查 者 要 求 数 据 专 业 人 员 指 出 他 们 在 25 项 不 同 数据 科学 技能 
上 的 熟练 程度 。 

研究 中 ,选择 “中 等 了 解 ”水 平 作为 数据 专业 人 员 拥 有 该 技能 的 标准 。“ 中 等 了 解 " 说 
明 一 个 数据 专业 人 员 能 够 按照 要 求 完 成 任务 ,并 且 通 常 不 需要 他 人 的 帮助 。 

这 项 研究 数据 基于 620 名 被 访 的 数据 专业 人 士 , 具 备 某 种 技能 的 百分比 反映 了 在 该 
技能 上 至 少 中 等 熟练 程度 的 被 访问 者 比例 的 职位 角色 , 即 : 商业 经 理 一 250; 开 发 人 员 一 
222; 创 意 人 员 一 221; 研 究 人 员 一 353。 


11.4.2 重要 数据 科学 技能 


以 拥有 该 技能 的 数据 专业 人 员 百 分 比 对 表 11-2 中 的 25 项 技能 进行 排序 。 分 析 表 
明 , 所 有 数据 专业 人 员 中 最 常见 的 数据 科学 十 大 技能 如 下 。 
统计 一 一 沟通 (87%) 


EE 


技术 一 一 处 理 结 构 化 数据 (75%) 

数学 & 建 模 一 一 数学 (71%) 

商业 一 一 项 目 管理 (71%) 

统计 一 一 数据 挖掘 和 可 视 化 工具 (71%) 
统计 一 一 科学 /科学 方法 (65%) 

统计 一 一 数据 管理 (65%) 


商业 品 设计 和 开发 (59%) 
统计 一 一 统计 学 和 统计 建 模 (59%) 
商业 商业 开发 (53%) 


许多 重要 的 数据 科学 技能 都 属于 统计 领域 : 所 有 的 5 项 与 统计 相关 的 技能 都 出 现在 
前 10 项 中 ,包括 沟通 、 数 据 挖掘 和 可 视 化 工具 、 科 学 /科学 方法 ,以 及 统计 学 和 统计 建 模 ; 
另外 ,与 商业 洞察 力 相关 的 三 项 技能 出 现在 前 10 项 中 ,包括 项 目 管理 .产品 设计 以 及 开 
发 ;而 没有 编程 技能 出 现在 前 10 项 中 。 


11.4.3 因 职 业 角 色 而 异 的 十 大 技能 


下 面 按 不 同 的 职业 角色 (商业 经 理 . 开 发 人 员 、 创 意 人 员 、 研 究 人 员 ) 来 看 看 他 们 的 十 
大 技能 。 分 析 中 指出 了 对 于 每 个 职业 角色 的 数据 专业 人 士 所 拥有 每 项 技能 的 频率 。 可 以 
看 到 ,一 些 重要 数据 科学 技能 在 不 同 角色 中 是 通用 的 。 这 包括 沟通 、 管 理 结 构 化 数据 、 数 
学 项 目 管理 .数据 挖掘 和 可 视 化 工具 ,数据 管理 ,以 及 产品 设计 和 开发 。 然 而 ,除了 这 些 
相似 之 处 还 有 相当 大 的 差异 。 

(1) 商业 经 理 : 那些 认为 自己 是 商业 经 理 ( 尤 其 是 领导 者 、 商 务 人 士 和 企业 家 ) 的 数 
据 专业 人 士 中 的 十 大 数据 科学 技能 如 下 。 

统计 一 一 沟通 (91%) 

商业 一 一 项 目 管理 (86%) 


商业 商业 开发 (77%) 

技术 一 一 处 理 结构 化 数据 (74%) 
商业 预算 (71%) 

商业 产品 设计 和 开发 (70%) 


数学 & 建 模 一 一 数学 (65%) 

统计 一 一 数据 管理 (64%) 

统计 一 一 数据 挖掘 和 可 视 化 工具 (64%) 

商业 一 一 管理 和 兼容 性 (61%) 

只 与 商业 经 理 相 关 的 重要 技能 毫 无 疑问 的 是 商业 领域 的 。 这 些 技能 包括 商业 开发 、 
预算 ,以 及 管理 和 兼容 性 。 

(2) 开发 人 员 : 那些 认为 自己 是 开发 工作 者 (尤其 是 开发 者 和 工程 师 ) 的 数据 专业 人 
士 中 的 十 大 数据 科学 技能 如 下 。 

技术 一 一 管理 结构 化 数据 (91%) 

统计 一 一 沟通 (85%) 


内 茹 电 生 从 


统计 一 一 数据 挖掘 和 可 视 化 工具 (76%) 

商业 产品 设计 (75%) 

数学 & 建 模 一 一 数学 (75%) 

统计 一 一 数据 管理 (75%) 

商业 一 一 项 目 管理 (74%) 

编程 一 一 数据 库 管理 (73%) 

编程 后 端 编程 (70%) 

编程 一 一 系统 管理 (65%) 

只 与 开发 者 相关 的 技能 是 技术 和 编程 。 这 些 重要 的 技能 包括 后 端 编 程 、 系 统管 理 以 
及 数据 库 管理 。 虽 然 这 些 数据 专业 人 员 具 备 这 些 技能 ,但 是 他 们 中 只 有 少数 人 拥有 那些 
在 大 数据 世界 中 很 重要 的 ,更 加 技术 化 、 更 加 依赖 编程 的 技能 。 例 如 . 少 于 一 半 人 掌握 云 
管理 (42%), 大 数据 和 分 布 式 数 据 (48%) 和 NLP 以 及 文本 挖掘 (42%)。 思 考 这 些 百分比 
是 否 会 随 着 更 多 数据 科学 项 目的 毕业 生 开 始 就 业 而 上 升 。 

(3) 创意 人 员 : 那些 认为 自己 是 创意 工作 者 (尤其 是 艺术 家 和 黑客 ) 的 数据 专业 人 士 
中 的 十 大 数据 科学 技能 如 下 。 

统计 一 一 沟通 (87%) 

技术 一 一 处 理 结构 化 数据 (79%) 

商业 项 目 管理 (77%) 

统计 一 一 数据 挖掘 和 可 视 化 工具 (77%) 

数学 & 建 模 一 一 数学 (75%) 

商业 一 一 产品 设计 和 开发 (68%) 

统计 一 一 科学 /科学 方法 (68%) 

统计 一 一 数据 管理 (67%) 

统计 一 一 统计 学 和 统计 建 模 (63%) 

商业 商业 开发 (58%) 

这 里 并 没有 只 针对 创意 人 员 的 重要 技能 。 事 实 上 ,他 们 的 重要 数据 科学 技能 列表 与 
那些 研究 者 紧密 匹配 ,10 项 中 有 8 项 一 致 。 

(4) 研究 人 员 : 那些 认为 自己 是 研究 工作 者 (尤其 是 研究 员 、 科 学 家 和 统计 学 家 ) 的 
数据 专业 人 士 中 的 十 大 数据 科学 技能 如 下 。 

统计 一 一 沟通 (90%) 

统计 一 一 数据 挖掘 和 可 视 化 工具 (81%) 

数学 上 & 建 模 一 一 数学 (80%) 

统计 一 一 科学 /科学 方法 (78%) 

统计 一 一 统计 学 和 统计 建 模 (75%) 

技术 一 一 处 理 结 构 化 数据 (73%) 

统计 一 一 数据 管理 (69%) 

商业 一 一 项 目 管理 (68%) 

技术 一 一 机 器 学 习 (58%) 
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数学 一 一 最 优化 (56%) 
研究 人 员 的 重要 数据 科学 技能 主要 在 统计 领域 。 另 外 ,只 在 研究 工作 者 上 体现 的 重 
要 数据 科学 技能 是 高 度 定量 性 质 ,包括 机 器 学 习 和 最 优化 。 


11.4.4 职业 角色 的 重要 技能 


上 述 研 究 所 列举 的 重要 数据 科学 技能 取决 于 你 正在 考虑 成 为 哪 种 类 型 的 数据 科学 
家 。 虽 然 一 些 技能 看 起 来 在 不 同 专业 人 士 间 通 用 (尤其 是 沟通 .处 理 结构 化 数据 ` 数 学、 项 
目 管理 .数据 挖掘 和 可 视 化 工具 、 数 据 管理 ,以 及 产品 设计 和 开发 ) ,但 是 其 他 数据 科学 技 
能 对 特定 领域 也 有 独特 之 处 。 开 发 人 员 的 重要 技能 包含 编程 技能 ,研究 人 员 则 包含 数学 
相关 的 技能 ,当然 商业 经 理 的 重要 技能 包含 商业 相关 的 技能 。 

这 些 结果 对 数据 专业 人 员 感 兴趣 的 领域 和 他 们 的 招聘 者 及 组 织 都 有 影响 。 数 据 专业 
人 员 可 以 使 用 结果 来 了 解 不 同类 型 工作 需要 具备 的 技能 种 类 。 如 果 你 有 较 强 的 统计 能 
力 , 可 能 会 寻找 一 个 有 较 强 研究 成 分 的 工作 。 了 解 你 的 技能 并 找 那些 对 应 的 工作 。 


【延伸 阅读 】 
基于 技能 的 改善 煞 据 科学 实 焉 的 方法 


在 当今 的 大 数据 时 代 , 利 用 数据 科学 理论 进行 数据 分 析 起 着 越 来 越 重要 的 作用 。 探 
讨 不 同 数据 技巧 类 型 和 熟练 程度 对 相关 项 目 有 着 怎样 的 影响 也 开始 具有 重要 意义 。 近 
日 ,AnalyticsWeek 的 首席 研究 员 、Bussiness Over Broadway 的 总 裁 Bob Hayes 博士 就 公 
开 了 研究 数据 分 析 项 目 成 功 所 必需 技能 的 相关 结果 。Bob 所 指出 的 基于 技能 的 数据 科学 
了 驱动 力矩 阵 方 法 ,可 以 指出 最 能 改善 数据 科学 实践 的 若干 技能 。 


数据 技能 的 熟练 程度 


首先 ,Bob 在 AnalyticsWeek 的 研究 中 包含 很 多 向 数据 专家 提出 的 ,有 关 技 能 、 工 作 
角色 和 教育 水 平等 有 关 的 问题 调查 。 该 调查 过 程 针 对 5 个 技能 领域 (包括 商业 ,技术 、 编 
程 .数学 和 建 模 以 及 统计 ) 的 25 个 数据 技能 进行 ,将 其 熟练 程度 划分 为 6 个 等 级 : 不 知道 
(0 分 ) 、 略 知 (20 分 ) .新 手 (40 分 )、 熟 练 (60 分 )、 非 常熟 练 (80 分 ) 和 专家 (100 分 )。 这 些 
不 同 的 等 级 就 代表 了 数据 专家 给 予 帮 助 或 需要 接受 帮助 的 能 力 水 平 。 其 中 ,“ 熟 练 " 表 示 
刚好 可 以 成 功 完成 相关 任务 ,为 某 个 数据 技能 所 能 接受 的 最 小 等 级 ;熟练 "以 下 的 等 级 表 
示 完 成 任务 还 需要 帮助 ,等 级 越 低 需要 的 帮助 越 多 ;而 “熟练 "以 上 的 等 级 则 表示 给 予 别 人 
帮助 的 能 力 , 等 级 越 高 给 予 的 帮助 可 以 更 多 。 

Bob 列 出 了 4 种 不 同 工 作 角色 对 于 25 种 不 同 数据 技能 的 熟练 程度 。 从 图 11-10 可 
以 看 出 ,不 同 领域 的 专家 对 其 领域 内 技能 的 掌握 更 加 熟练 。 

然而 ,即使 是 数据 专家 对 于 某 些 技能 的 掌握 程度 也 达 不 到 “熟练 ”。 例 如 ,图 11-10 中 
浅 色 区 域 都 在 60 分 以 下 。 这 些 技 能 包括 非 结构 化 数据 .NLP、 机 器 学 习 、 大 数据 和 分 布 式 
数据 、 云 管理 .前端 编程 .优化 ,概率 图 模型 以 及 算法 和 贝 叶 斯 统计 。 而 且 , 针 对 以 下 9 种 
技能 ,只 有 一 种 类 型 的 专家 能 够 达到 熟练 程度 一 一 产品 设计 、 商 业 开 发 .预算 编制 .数据 库 
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图 11-10 基于 技能 的 改善 数据 科学 实践 的 方法 
管理 .后 端 编程 .数据 管理 、 数 学 、 统 计 / 统 计 建 模 以 及 科学 /科学 方法 。 
并 非 所 有 的 数据 技能 都 同等 重要 


接 下 来 ,Bob 继续 探讨 了 不 同 数据 技能 的 重要 性 。 为 此 ,AnalyticsWeek 的 研究 调查 
了 不 同 数据 专家 对 其 分 析 项 目 结果 的 满意 程度 (也 表示 项 目的 成 功 程度 ) : 从 0 分 到 10 
分 ,其 中 0 分 表示 极度 不 满意 ,10 分 表示 极度 满意 。 

对 于 每 一 种 数据 技能 ,Bob 都 将 数据 专家 的 熟练 程度 和 项 目的 满意 度 进行 了 关联 。 
针对 4 种 工作 角色 (商业 管理 者 、 研 究 者 、 开 发 人 员 、 创 新 人 员 ) 的 技能 关联 情况 可 以 看 出 ， 
商业 管理 者 和 研究 者 的 数据 技能 和 项 目 结果 的 满意 关联 度 最 高 (平均 一 0. 30) ,而 开发 
人 员 和 创新 人 员 的 关联 度 只 有 0. 18。 此 外 ,4 种 工作 角色 中 不 同 数据 技能 之 间 的 平均 关联 
度 只 有 0.01, 表 明 对 于 一 种 数据 专家 是 必需 的 数据 技能 对 于 其 他 数据 专家 未 必 是 必需 的 。 


数据 科学 驱动 力矩 阵 : 图 形 化 结果 
基于 熟练 程度 和 关联 度 的 结果 ,Bob 绘 出 了 数据 科学 驱动 力矩 阵 (Data Science 
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图 (图 11-11)。 其 中 ,又 轴 代 表 所 有 数据 技能 的 熟练 程度 ,了 
熟练 程度 的 60 分 和 关联 度 的 0. 30。 


Driver Matrix, DSDM) 的 
轴 代 表 技 能 与 项 目 结 果 的 关联 度 ,而 原点 则 分 别 对 于 


Skill- Based Approach to Improve the Practice of Data Science 


SKILLESSENTIALTO 
PROJECT OUTCOME 


NO bl EXPERT 
PROFICIENCY 癌 PROFICIENCY 


SKILL NOT ESSENTIAL 
TO PROJECT OUTCOME 


图 11-11 数据 科学 驱动 力矩 阵 


在 DSDM 中 ,每 一 种 数据 技能 都 会 落 在 一 个 象限 中 。 由 此 ,这 种 技能 所 代表 的 含义 
也 就 不 同 。 

象限 1( 左 上 ): 该 区 域内 的 技能 对 于 项 目 结果 非常 重要 ,但 熟练 程度 却 不 高 ,那么 , 通 
过 聘请 掌握 相关 技能 的 数据 专家 或 者 加 强 相关 技能 的 员工 培训 ,项 目 就 可 以 取得 很 好 的 
改进 。 

象限 2( 右 上 ): 该 区 域内 的 技能 对 于 项 目 结果 非常 重要 

象限 3( 右 下 ): 该 区 域内 的 技能 对 于 项 目 结果 而 
高 。 因 此 , 需 Ee 度 投入 

象限 4( 左 下 ): 该 区 域内 的 技能 对 于 项 目 结果 而 言 为 非 必需 ,掌握 的 熟练 程度 也 不 
高 。 但 是 ,仍然 没 和 些 技能 的 投入 。 


度 也 不 低 。 
程度 较 


对 于 不 同 数据 角色 的 DSDM 


Bob 针对 商业 管理 者 、 研 究 者 、 开 发 人 员 和 创新 人 员 4 种 角色 分 别 创建 了 DSDM ,并 
主要 关注 落 在 第 一 象限 的 技能 。 

商业 管理 者 (图 11-12): 对 于 商业 管理 者 而 言 ,第 一 象限 中 的 技能 包括 统计 学 /统计 
建 模 、 数 据 挖 握 、 科 学 /科学 方法 、 大 数据 和 分 布 式 数据 、 机 器 学 习 、 贝 叶 斯 统计 、 优 化 、 非 结 
构 化 数据 、 结 构 化 数据 以 及 算法 。 而 没有 任何 技能 落 在 第 二 象限 。 

开发 人 员 ( 图 11-13): 对 于 开发 人 员 . 只 有 系统 管理 和 数据 挖 握 两 种 技能 落 在 第 一 象 
限 。 绝 大 部 分 技能 都 落 在 第 四 象限 。 

创新 人 员 ( 图 11-14): 对 于 创新 人 员 , 共 有 数学 、 数 据 挖 握 、 商 业 开 发 .概率 图 模型 和 
优化 等 5 种 技能 落 在 第 一 象限 ,而 绝 大 部 分 技能 都 落 在 第 四 象限 。 

研究 者 (图 11-15): 对 于 研究 者 ,共有 算法 、 大 数据 和 分 布 式 数据 、 数 据 管理 产品 设 
计 及 其 学 习 和 贝 叶 斯 统计 等 5 种 技能 落 在 第 一 象限 ,而 落 在 第 二 象限 的 技 负 a 
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Data Science Driver Matrix for Bu 


NOTESSENTIAL 


图 11-12 商业 管理 者 的 DSDM 


Data Science Driver Matrix for Developers 


ESSENTIAL 


NONE 


NOTESSENTIAL 


图 11-13 开发 人 员 的 DSDM 


Data Science Driver Matrix for Creatives 


ESSENTIAL 


EXPERT 


图 11-14 创新 人 员 的 DSDM 
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Data Science Driver Matrix for Researchers 


ESSENTIAL 


EXPERT 


NOTESSENTIAL 


图 11-15 研究 者 的 DSDM 


结论 


从 以 上 的 研究 中 ,Bob 得 到 以 下 结论 
无 论 是 对 于 哪个 领域 的 专 数据 挖掘 对 于 项 目 结 果 都 十 分 重要 
商业 管理 者 和 研究 者 可 以 通过 改善 数据 技能 来 增加 数据 分 析 项 目的 满意 度 。 
0 数据 技能 对 于 一 些 分 析 项 目的 结果 非常 重要 
除 此 之 外 ,Bob 还 提出 团队 合作 对 于 项 目 成 功 也 有 着 非凡 的 意义 


资料 来 源 : 36 大 数据 
【实验 与 思考 】 


了 解数 据 科 学 ,部 四 数据 科学 家 
1. 实验 目的 


(1) 了 解 新 兴学 科 一 一 数据 科学 
悉数 据 分 析 生 命 周 期 模 
: | 的 技能 要 求 、 素 质 要 求 、 知 识 结 构 和 培养 途径 。 


-一 的 基础 知识 和 主要 内 容 ; 


2. 工具 /准备 工作 
在 开始 本 实验 之 前 ,请 认真 阅读 课程 的 相关 内 容 
需要 准备 一 台 带 有 浏览 器 ,能 够 访问 因特网 的 计算 机 


3. 实验 内 容 与 步骤 


(1) 请 结合 查阅 相关 文献 资料 ,为 “数据 科学 ”给 出 一 个 权威 性 的 定义 


蒂 
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这 个 定义 的 来 源 是 : 
(2) 请 结合 查阅 相关 文献 资料 , 简 述 什么 是 “数据 分 析 生 命 周 期 模型 ”。 
答 : 


(3) 请 结合 查阅 相关 文献 资料 ,结合 你 的 认识 ,为 “数据 科学 家 ”提出 一 个 定义 。 
答 : 


(4) 请 结合 查阅 相关 文献 资料 , 简 述 数据 科学 家 需要 具备 的 技能 。 
答 : 


(5) 请 结合 查阅 相关 文献 资料 , 简 述 数据 科学 家 需要 具备 的 素质 。 
答 : 


(6) 数据 科学 技能 自我 评估 。 
请 记录 ,你 认为 自己 更 接近 于 下 列 哪 种 职业 角色 ? 
商业 经 理 开发 人 员 创意 人 员 研究 人 员 

参考 表 11-2, 根 据 表 11-3 所 列举 的 25 项 数据 科学 技能 ,客观 地 给 自己 做 一 个 评估 ， 
使 用 这 样 的 量 表 : 不 知道 、 略 知 、 新 手 、 熟 练 ,非常 熟练 和 专家 。 请 在 表 11-3 的 对 应 栏目 
中 合适 的 项 下 打 ”/ ”。 


表 11-3 数据 科学 中 25 项 技能 自我 评估 


评估 结果 


技能 领域 技能 详情 非常 


专家 熟练 熟练 | 新 手 | 略 知 | 不 知道 


1. 产品 设计 和 开发 


2. 项 目 管理 


商业 3. 商业 开发 


4. 预算 


5. 管理 和 兼容 性 


EE 


评估 结果 


技能 领域 技能 详情 非常 


专家 熟练 熟练 | 新 手 | 略 知 | 不 知道 


6. 处 理 非 结构 化 数据 


7. 管理 结构 化 数据 


技术 8. 自然 语言 处 理 (NLP) 和 文本 挖掘 


9. 机 器 学 习 


10. 大 数据 和 分 布 式 数据 


11. 最 优化 


12. 数学 


数学 & 建 模 | 13. 图 模型 


14. 算法 和 仿真 


15. 贝 叶 斯 统计 


16. 系统 管理 和 设计 


17. 数据 库 管理 


编程 18. 云 管 理 


19. 后 端 编程 


20. 前 端 编程 


21. 数据 管理 


22. 数据 挖掘 和 可 视 化 工具 


统计 23. 统计 学 和 统计 建 模 


24. 科学 /科学 方法 


25. 沟通 


说 明 : 不 知道 (0) , 略 知 (20) ,新 手 (40) ,熟悉 (60) ,非常 熟悉 (80) ,专家 (100) 。 你 的 评估 总 分 是 : 分 。 


4. 实验 总 结 


5. 实验 评价 (教师 ) 
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【导读 案例 】 


拥有 原创 数据 的 优势 


COOKPAD 是 日 本 最 大 的 食谱 分 享 网 站 (图 12-1) ,食谱 总 数 超过 40 万 道 , 从 西式 到 
中 式 , 从 前 菜 到 汤 、 主 菜 、 甜 点 , 连 情人 节 巧 克 力 、 日 本 菜 全 部 都 有 。COOKPAD 的 月 用 户 
超过 1500 万 人 。ID's 在 日 本 全 国 拥有 33 家 连锁 超市 客户 ,为 零售 连锁 业 提 供 忠 诚 度 计 
划 。 这 两 家 企业 于 2011 年 12 月 发 表 了 合作 计划 。 

两 家 公司 对 光临 其 合作 伙伴 一 一 全 国 7 家 超市 连锁 的 “购物 卡 ” 会 员 , 与 经 常 使 用 
COOKPAD 的 ID 会 员 进 行 关 联 , 运 用 搜索 和 购买 记录 数据 来 开展 营销 活动 。 具 体 来 说 ， 
顾客 用 购物 卡 的 ID 在 COOKPAD 上 登录 时 ,就 可 以 查看 到 其 在 超市 中 购买 的 食材 
COOKPAD 可 以 根据 食材 向 顾客 推荐 合适 的 菜谱 。 对 于 超市 方面 来 说 ,通过 获取 菜谱 的 搜 
索 数 据 , 也 可 以 得 到 相应 的 好 处 ,如 了 解 顾客 购买 食材 的 目的 ,结合 个 人 喜好 来 发 放 优惠 券 ， 
改善 商品 的 陈列 等 。 两 家 公司 的 合作 不 仅 限 于 相互 共享 数据 ,还 给 人 们 带 来 更 多 的 启示 。 
从 COOKPAD 身上 值得 学 习 的 一 点 ,就 是 其 拥有 其 他 公司 所 没有 的 原创 数据 这 一 优势 。 

一 直 以 来 ,COOKPAD 都 在 分 析 用 户 在 搜索 荣 谱 时 所 输入 的 海量 搜索 日 志 , 根 据 分 
析 结 果 向 食品 厂商 等 企业 提供 “ 吃 与 看 ”服务 。 原 因 在 于 搜索 日 志 可 以 看 成 是 表现 消费 者 
对 食材 潜在 需求 的 宝贵 市 场 数 据 。 也 就 是 说 ,COOKPAD 在 将 自己 公司 所 拥有 的 核心 数 
据 出 售 给 其 他 公司 这 一 点 上 ,已 经 对 数据 运用 战略 进行 了 实践 。 

使 用 “ 吃 与 看 ”服务 的 客户 , 当 输 入 一 些 食材 如 “火锅 ”时 ,就 可 以 得 到 一 些 分 析 结 果 ， 
如 经 常 与 哪些 食材 (白菜 卷心菜 、 鳃 鱼 、 猪 肉 、 鸡肉 等 ) 一 起 搜索 ,在 几 月 份 被 搜索 的 次 数 
最 多 ,首都 圈 和 关 西 地 区 在 搜索 趋势 上 有 无 差异 等 。 根据 这 些 数据 ,食品 厂商 就 可 以 开发 
新 产品 ,流通 零售 业者 则 可 以 参考 消费 者 的 习惯 来 组 织 卖 场 。 

例如 , 某 食 品 厂商 的 咖 咕 块 商品 企划 部 门 ,每 月 对 与 “ 咖 呈 ?一 起 搜索 的 食材 进行 分 
析 , 发 现 了 最 经 常 被 搜索 的 食材 是 “ 肉 末 ”。 根据 这 一 结果 ,他 们 将 咖 呆 块 与 肉 末 组 合 的 菜 
谱 印 在 了 商品 的 宣传 单 上 。 

而 COOKPAD 运营 着 日 本 最 大 的 美食 菜谱 网 站 ,充分 掌握 了 消费 者 对 于 食材 的 潜在 
需求 ,在 这 一 点 上 ,其 他 公司 是 无 法 追赶 的 。 无 论 是 与 ID's 的 合作 ,还 是 其 所 提供 的 “ 吃 
与 看 "服务 ,都 将 只 有 COOKPAD 才 具 备 的 原创 数据 的 优势 发 挥 到 了 最 大 限度 。 该 公司 
的 战略 对 其 他 行业 也 具有 很 大 的 参考 价值 。 
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图 12-1 


阅读 上 文 ,请 思考 、 分 析 并 简单 记录 : 
(1) COOKPAD ee 
它 的 行业 优势 是 什么 


下 


它 的 行业 优势 是 什么 ? ID's 是 什么 


日 本 最 大 的 食谱 分 享 网 站 COOKPAD 


类 型 的 网 


为 昭 电 上 同 反 


(2) COOKPAD 与 ID's 是 如 何在 大 数据 应 用 上 开展 合作 的 ? 
答 : 


(3) 什么 是 “忠诚 度 计 划 ”? 请 简 述 。 
答 : 


(4) 请 简单 描述 你 所 知道 的 上 一 周 发 生 的 国际 、 国 内 或 者 身边 的 大 事 。 
答 : 


121 消费 者 的 隐私 权 


要 在 业务 中 对 大 数据 进行 运用 ,就 不 可 避免 地 会 遇 到 隐私 问题 。 对 Web 上 的 用 户 个 
人 信息 ,行为 记录 等 进行 收集 ,在 未 经 用 户 许 可 的 情况 下 将 数据 转让 给 广告 商 等 第 三 方 ， 
这 样 的 经 营 者 现在 并 不 少见 ,因此 各 国都 围绕 着 Web 上 行为 记录 的 收集 展开 了 激烈 的 讨 
论 与 立法 。 

涉及 个 人 信息 及 个 人 相关 信息 的 经 营 者 .需要 在 确定 使 用 目的 的 基础 上 事先 征 得 用 
户 同 意 , 并 在 使 用 目的 发 生变 化 时 ,以 易 懂 的 形式 进行 告知 ,这 种 对 透明 度 的 确保 今后 应 
该 会 愈 发 受到 重视 。 

2010 年 12 月 ,美国 商务 部 发 表 了 一 份 题 为 “互联 网 经 济 中 的 商业 数据 隐私 与 创新 : 
动态 政策 框架 ”的 长 达 88 页 的 报告 。 在 这 份 报告 中 指出 ,为 了 对 线 上 个 人 信息 的 收集 进 
行规 范 ,需要 出 台 一 部 “隐私 权 法 案 ” ,在 隐私 问题 上 对 国内 外 的 相关 利益 方 进行 协调 。 

受 这 份 报告 的 影响 ,2012 年 2 月 23 日 , “消费 者 隐私 权 法 案 " 正 式 颁 布 。 这 项 法 案 
中 ,对 消费 者 的 权利 进行 了 如 下 具体 的 规定 。 

(1) 个 人 控制 : 对 于 企业 可 收集 哪些 个 人 数据 ,并 如 何 使 用 这 些 数 据 , 消 费 者 拥有 控 
制 权 。 
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对 于 消费 者 和 他 人 共享 的 个 人 数据 ,以 及 企业 如 何 收集 、 使 用 、 披 露 这 些 个 人 数据 , 企 
业 必 须 向 消费 者 提供 适当 的 控制 手段 。 为 了 能 够 让 消费 者 做 出 选择 ,企业 需要 提供 一 个 
可 反映 企业 收集 使用、 披露 个 人 数据 的 规模 .范围 、 敏 感性 ,并 可 由 消费 者 进行 访问 且 易 
于 使 用 的 机 制 。 

例如 ,通过 收集 搜索 引擎 的 使 用 记录 广告 的 浏览 记录 、 社 交 网 络 的 使 用 记录 等 数据 ， 
就 有 可 能 生成 包含 个 人 敏感 信息 的 档案 。 因 此 ,企业 需要 提供 一 种 简单 且 醒 目的 形式 ,使 
得 消费 者 能 够 对 个 人 数据 的 使 用 和 公开 范围 进行 精细 的 控制 。 

此 外 ,企业 还 必须 提供 同样 的 手段 ,使 得 消费 者 能 够 撤销 曾经 承诺 的 许可 ,或 者 对 承 
诺 的 范围 进行 限定 。 

(2) 透明 度 : 对 于 隐私 权 及 安全 机 制 的 相关 信息 ,消费 者 拥有 知情 、 访 问 的 权利 。 

前 者 的 价值 在 于 加 深 消 费 者 对 隐私 风险 的 认识 并 让 风险 变 得 可 控 。 为 此 ,对 于 所 收 
集 的 个 人 数据 及 其 必要 性 、 使 用 目的 、 预 计 删 除 日 期 .是 否 与 第 三 方 共享 以 及 共享 的 目的 ， 
企业 必须 向 消费 者 进行 明确 的 说 明 。 

此 外 ,企业 还 必须 以 在 消费 者 实际 使 用 的 终端 上 容易 阅读 的 形式 提供 关于 隐私 政策 
的 告知 。 特 别 是 在 移动 终端 上 ,由 于 屏幕 尺寸 较 小 ,要 全 文 阅 读 隐私 政策 几乎 是 不 可 能 
的 。 因 此 ,必须 要 考虑 到 移动 终端 的 特点 ,采取 改变 显示 尺寸 、 重 点 提示 移动 平台 特有 的 
隐私 风险 等 方式 ,对 最 重要 的 信息 予以 显示 。 

(3) 尊重 背景 : 消费 者 有 权 期 望 企 业 按照 与 自己 提供 数据 时 的 背景 相符 的 形式 对 个 
人 信息 进行 收集 、 使 用 和 披露 。 

这 要 求 企业 在 收集 个 人 数据 时 必须 有 特定 的 目的 ,企业 对 个 人 数据 的 使 用 必须 仅 限 
于 该 特定 目的 的 范畴 , 即 基于 FIPP( 公 平 信息 行为 原则 ) 的 声明 。 

从 基本 原则 上 说 ,企业 在 使 用 个 人 数据 时 ,应当 仅 限 于 与 消费 者 披露 个 人 数据 时 的 背 
景 相 符 的 目的 。 另 一 方面 ,也 应 该 考虑 到 ,在 某 些 情 况 下 ,对 个 人 数据 的 使 用 和 披露 可 能 
与 当初 收集 数据 时 所 设想 的 目的 不 同 ,而 这 可 能 成 为 为 消费 者 带 来 恩惠 的 创新 之 源 。 在 
这 样 的 情况 下 ,必须 用 比 最 开始 收集 数据 时 更 加 透明 醒目 的 方式 来 将 新 的 目的 告知 消费 
者 ,并 由 消费 者 来 选择 是 允许 还 是 拒绝 。 

(4) 安全 : 消费 者 有 权 要 求 个 人 数据 得 到 安全 保障 且 负 责任 地 被 使 用 。 

企业 必须 对 个 人 数据 相关 的 隐私 及 安全 风险 进行 评估 ,并 对 数据 遗失 ,非法 访问 和 使 
用 损坏 、 自 改 ,. 不 合适 的 披露 等 风险 维持 可 控 、 合 理 的 防御 手段 。 

(5) 访问 与 准确 性 : 当 出 于 数据 敏感 性 的 因素 ,或 者 当 数据 的 不 准确 可 能 对 消费 者 
带 来 不 良 影响 的 风险 时 ,消费 者 有 权 以 适当 的 方式 对 数据 进行 访问 ,以 及 提出 修正 ,删除 、 
限制 使 用 等 要 求 。 

企业 在 确定 消费 者 对 数据 的 访问 、 修 正 、 删 除 等 手段 时 ,需要 考虑 所 收集 的 个 人 数据 
的 规模 ,范围 敏感 性 ,以 及 对 消费 者 造成 经 济 上 物理 上 损害 的 可 能 性 等 。 

(6) 限定 范围 收集 : 对 于 企业 所 收集 和 持 有 的 个 人 数据 ,消费 者 有 权 设 置 合理 限制 。 

企业 必须 遵循 第 三 条 “尊重 背景 "的 原则 ,在 目的 明确 的 前 提 下 对 必需 的 个 人 数据 进 
行 收集 。 此 外 ,除非 需要 履行 法 律 义务 ,否则 当 不 再 需要 时 ,必须 对 个 人 数据 进行 安全 销 
毁 ,或 者 对 这 些 数 据 进 行 身 份 不 可 识别 处 理 。 


243 


3 


(7) 说 明 责 任 : 消费 者 有 权 将 个 人 数据 交 给 为 遵守 “消费 者 隐私 权 法 案 ” 具 备 适当 保 
障 措施 的 企业 。 

企业 必须 保证 员工 遵守 这 些 原则 ,为 此 ,必须 根据 上 述 原则 对 涉及 个 人 数据 的 员工 进 
行 培训 ,并 定期 评估 执行 情况 。 在 有 必要 的 情况 下 ,还 必须 进行 审计 。 

在 上 述 7 项 权利 中 ,对 于 准备 运用 大 数据 的 经 营 者 来 说 ,第 三 条 “尊重 背景 ”是 尤为 重 
要 的 一 条 。 例 如 ,如 果 将 在 线 广告 商 以 更 个 性 化 的 广告 投放 为 目的 收集 的 个 人 数据 ,用 于 
招聘 、 信 用 调查 .保险 资 格 审查 等 目的 的 话 ,就 会 产生 问题 。 

此 外 ,Facebook 等 社交 网 络 服务 中 的 个 人 档案 和 活动 等 信息 ,如果 用 于 Facebook 自 
身 的 服务 改善 以 及 新 服务 的 开发 是 没有 问题 的 。 但 是 ,如 果 要 对 第 三 方 提供 这 些 信息 , 则 
必须 以 醒目 易 懂 的 形式 对 用 户 进 行 告知 ,并 让 用 户 有 权 拒 绝 向 第 三 方 披露 信息 。 
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“Raw DATA Now!”( 马 上 给 我 原始 数据 !) 

在 2009 年 2 月 美国 加 利 福 尼 亚 州 长 滩 市 举行 的 TED(Technology Entertainment 
Design) 大 会 上 , 曾 提出 万 维 网 方案 、 被 誉 为 “WWW 之 父 ” 的 英国 计算 机 科学 家 蒂 姆 . 伯 
纳 斯 一 李 (Tim Berners-Lee,1955 一 ”) 辟 士 , 面 对 会 场 中 众多 的 听众 , 喊 出 了 上 面 的 这 
句 话 。 

12.2.1 LOD 运动 


“WWW 之 父 ” 蒂 姆 。 伯 纳 斯 - 李 琐 士 所 提出 的 ,将 数据 公开 并 连接 起 来 ,以 对 社会 产 
生 巨 大 价值 为 目的 进行 共享 的 主张 .被 称 为 LOD(Linked Open Data, 连 接 开放 数据 ， 
图 12-2)。LOD 倡导 将 国家 及 地 方 政府 等 公职 机 构 所 拥有 的 统计 数据 、 地 理 信息 数据 、 生 
命 科 学 等 科学 数据 开放 出 来 (Open Data) ,并 相互 连接 (Link) ,以 为 社会 整体 带 来 巨大 价 
值 为 目的 进行 共享 。LOD 与 倡导 积极 公开 政府 信息 及 公民 参与 行政 的 “政府 公开 ”运动 
紧密 相连 , 正 不 断 地 在 世界 各 国政 府中 推广 开 来 。 


。 利 用 Web 技 术 将 开放 数据 (Open Data) 进 行 公开 和 链接 (Link) 的 机 制 
。 将 Web 空 间作 为 巨大 的 数据 库 ， 可 供 查询 和 使 用 


~ 
La | 
性 
> 
[| 

Web 空 间 


图 12-2 LOD 的 概念 
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针对 政府 机 构 抱 着 数据 不 放 而 拒绝 公开 的 状况 , 蒂 姆 。 伯 纳 斯 -李强 烈 呼吁 :“ 请 把 
未 经 任何 加 工 的 原始 数据 交 给 我 们 。 我 们 想 要 的 正 是 这 些 数据 。 和 希望 公开 原始 数据 。” 

随即 ,他 在 演讲 中 继续 谈 道 :“ 从 工作 到 娱乐 ,数据 存在 于 人 们 生活 的 各 个 角落 。 然 
而 ,数据 产生 地 的 数量 并 不 重要 ,更 重要 的 是 将 数据 连接 起 来 。 通 过 将 数据 相互 连接 ,就 
可 以 获得 在 传统 文档 网 络 中 所 无 法 获得 的 力量 。 这 其 中 会 产生 出 巨大 的 力量 。 如 果 你 们 
认为 这 个 构想 很 不 错 , 那 么 现在 正 是 开始 行动 的 时 候 了 。” 

所 谓 “ 传 统 文档 网 络 中 所 无 法 获得 的 ,意思 是 说 ,传统 的 Web 是 以 人 类 参与 为 前 提 
的 ,而 通过 计算 机 进行 自动 化 信息 处 理 还 相对 落后 。 例 如 ,HTML 中 所 描述 的 信息 ,对 人 
类 是 容易 理解 的 ,但 对 于 计算 机 来 说 ,处 理 起 来 就 比较 费力 。LOD 的 前 提 是 ,利用 Web 
的 现 有 架构 ,采用 计算 机 容易 处 理 的 机 器 可 读 格 式 来 进行 信息 的 共享 。 

蒂 姆 。 伯 纳 斯 - 李 的 设想 是 “如 果 任 何 数据 都 可 以 在 Web 上 公开 ,人 们 便 可 以 使 用 
这 些 数据 实现 过 去 所 未 曾 想象 过 的 壮举 ”。 

在 2010 年 举办 的 “TED 大 学 ?中 , 蒂 姆 。 伯 纳 斯 - 李 以 “Raw DATA Now!’ 的 呼吁 
已 经 传达 给 全 世界 的 人 ?为 题 ,介绍 了 一 些 实例 。 

例如 ,英国 政府 成 员 Paul Clark 在 政府 开设 的 博客 中 写 道 : 

“我 们 有 自行 车 事故 发 生地 点 的 原始 统计 数据 。” 

随后 , 仅 过 了 两 天 ,英国 报纸 《泰晤士 报 》( 创 办 于 1785 年 的 世界 上 最 古老 的 报纸 ) 就 
在 其 在 线 版 Times Online 上 ,利用 这 些 原始 数据 和 地 图 数据 相 结 合 开发 了 相应 的 服务 并 
公开 发 布 。 

2010 年 1 月 ,在 海地 共和 国 发 生 里 氏 7 级 大 地 震 之 际 ,“Raw DATA Now!1” 的 精神 
也 得 以 发 扬 。 利 用 世界 最 大 的 商用 卫星 图 像 供 应 商 GeoEye 公司 公开 的 高 分 辨 率 卫星 图 
像 ,全 世界 的 志愿 者 用 OpenStreetMap(OSM ,一 个 可 以 自由 使 用 、 带 有 编辑 功能 的 协作 
型 世界 地 图 制作 项 目 。 可 以 理解 为 维基 百科 的 地 图 版 ) 制 作 了 标明 难民 营 路 线 的 详细 
地 图 。 


12.2.2 对 政府 公开 的 影响 


促进 入 们 公开 所 拥有 的 数据 ,并 将 它们 连接 起 来 ,从 而 对 社会 整体 产生 巨大 价值 的 
LOD 运动 ,渐渐 开始 对 政府 公开 (Open Government) 产 生 影 响 。 所 谓 政 府 公 开 , 就 是 利 
用 互联 网 的 交互 性 ,促进 政府 信息 的 积极 公开 以 及 公民 对 行政 的 参与 。 

奥巴马 总 统 就 任 后 ,美国 联邦 政府 在 2009 年 1 月 发 表 的 总 统 备忘录 中 ,提出 “透明 公 
开 的 政府 ”, 以 Transparency( 透 明度 )、Participation( 公 民 参 与 )、Collaboration( 政 府 间 合 
作 及 官民 合作 ) 为 基本 的 三 个 原则 ,要 求 各 政府 机 关 建 立 透明 、 开 放 、 和 谐 的 政府 形象 。 在 
这 三 个 原则 中 ,作为 Transparency (透明度) 的 具体 实现 .就 是 建立 了 一 个 向 公民 提供 国 
情 、 环 境 、 经 济 状况 等 联邦 政府 机 关 所 拥有 的 各 种 数据 的 网 站 Data. gov。 

Data. gov 基于 “政府 数据 是 公民 资产 "这 一 思路 ,将 联邦 政府 机 关 拥 有 的 原始 数据 
(Raw Data Catalog) 以 目录 形式 公开 提供 。2009 年 5 月 刚 开始 时 只 有 47 组 数据 ,而 到 
2012 年 5 月 其 公开 的 数据 量 已 经 扩大 到 约 39 万 组 。 

从 所 提供 的 数据 数量 上 可 以 看 出 ,Data. gov 的 特征 在 于 其 公开 了 器 政府 部 门 的 非常 
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多 种 多 样 的 数据 (截至 2012 年 5 月 ,共有 172 个 政府 机 关公 开 了 数据 )。 例 如 ,交通 部 公 
开 了 对 主要 航空 公司 国内 航线 到 达 准 点 率 的 统计 数据 Airline On-Time Performance and 
Causes of Flight Delays( 航 空 公司 准 点 率 和 晚点 原因 ) ,其 中 包括 起 飞机 场 、 到 达 机 场 、. 计 
划 起 飞 时 间 、 实 际 起 飞 时 间 、 计 划 到 达 时 间 、 实 际 到 达 时 间 、 航 班 名 称 、 进 入 跑道 时 间 、 飞 行 
时 间 等 详细 数据 。 

此 外 ,美国 国防 部 也 公开 了 陆军 、 海 军 、 空 军 等 各 军队 的 人 员 构 成 数据 ,如 人 种 (白人 、 
黑人 、 亚 洲 人 、 美 国 印 第 安 人 、 夏 威 夷 原 住民 等 )、 性 别 等 , 自 公 开 以 来 在 下 载 总 数 排行 榜 上 
排名 第 6 位 ,是 最 受 欢迎 的 数据 之 一 。 

公开 的 数据 还 包括 美国 联邦 政府 以 宣言 形式 约定 要 执行 的 措施 的 进展 情况 ,例如 , 根 
据 “ 联 邦 政府 到 2015 年 计划 将 运行 中 的 数据 中 心 数量 前 减 40%” 这 一 约定 ,数据 中 心 的 
关闭 情况 等 数据 也 进行 了 公开 。 

普通 公民 和 组 织 都 可 以 下 载 这 些 公开 的 数据 ,并 自由 地 进行 加 工 、 分 析 。 因 此 ,Data. 
gov 中 并 不 只 有 数据 ,还 公开 了 一 些 民间 开发 的 应 用 程序 。 

美国 政府 将 其 所 拥有 的 数据 中 能 够 公开 的 部 分 积极 进行 公开 ,作为 其 平台 的 Data. 
gov 不 仅 服务 于 国内 ,还 有 很 多 来 自 国 外 的 访问 。 根 据 2011 年 11 月 的 统计 ,来 自 邻 国 加 
拿 大 的 访问 量 达 2155 次 居 首 位 ,日 本 以 微弱 的 差距 排名 第 2(2027 次 ), 第 3 位 是 印度 
(1987 次 ) , 接 下 来 分 别 是 英国 、 德 国 、 俄 罗斯 联邦 和 法 国 (图 12-3)。 可 以 看 出 ,日 本 对 这 
些 数 据 也 表现 出 了 浓厚 的 兴趣 。 
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图 12-3 Data. gov 来 自 国外 的 访问 量 ( 前 10 位 ) 


英国 政府 也 从 2010 年 1 月 起 开始 在 Data. gov. uk 上 公开 政府 所 拥有 的 数据 。Data. 
gov. uk 是 由 LOD 的 发 起 人 蒂 姆 。 伯 纳 斯 - 李 亲 自 监督 的 项 目 , 公 民 可 以 对 犯罪 .交通 、 教 
育 等 政府 拥有 的 数据 (不 包括 个 人 数据 ) 进 行 访问 。 该 项 目 一 开始 就 公开 了 约 2500 组 大 
量 的 数据 ,到 2012 年 5 月 时 其 数量 超过 了 8400 组 ,项目 开始 后 的 两 年 间 增加 了 三 倍 多 。 

与 此 同时 ,对 这 些 数据 进行 运用 的 应 用 程序 也 正在 开发 。 例 如 ,可 查询 1995 年 起 至 
今 的 住宅 价格 记录 的 Our Property, 通过 智能 手机 在 地 图 上 显示 最 近 药 房 的 UK 
Pharmacy ,报告 道路 上 的 坑 洞 和 危险 的 Fin That Hole 等 ,现在 已 经 公开 了 约 200 个 整合 
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型 应 用 程序 。 
12.2.3 利用 开放 数据 的 创业 型 公司 


The Climate Corporation 公司 的 业务 是 向 农民 销售 综合 气候 保险 。 所 谓 综合 气候 保 
仿 ,就 是 农民 为 了 预防 恶劣 气候 所 造成 的 农作物 减产 而 购买 的 一 种 保险 。 该 公司 通过 美 
国 农业 部 公开 的 过 去 60 年 的 农作物 收获 量 数据 ,与 数据 量 达 到 14TB 的 以 两 平方 英里 
( 约 合 5. 2kms ) 为 单位 进行 统计 的 土壤 数据 ,以 及 政府 在 全 国 100 万 个 地 点 安装 的 多 普 勒 
雷达 所 扫描 的 气候 信息 相 结 合 ,对 玉米 .大豆 、 冬 小 麦 的 收获 量 进行 预测 。 

所 有 这 些 数据 都 是 可 以 免费 获取 的 ,因此 是 否 能 够 从 这 些 数据 中 催生 出 有 魅力 的 商 
品 和 服务 才 是 关键 。 该 公司 的 两 位 创始 人 都 来 自 Google, 其 中 一 位 曾 负责 过 分 布 式 计 
算 。 此 外 ,该 公司 60 名 员工 中 ,有 12 名 拥有 环境 科学 和 应 用 数据 方面 的 博士 学 位 ,聚集 
了 一 大 批 能 够 用 数据 来 解决 现实 问题 的 人 才 。 

此 外 ,该 公司 还 自称 “世界 上 届 指 可 数 的 MapReduce 驾驭 者 ”, 他 们 是 利用 亚马逊 的 
云 计 算 服务 来 处 理 政 府 所 公开 的 庞大 数据 的 。 

有 用 的 数据 、 具 备 高 超 技术 的 人 才 , 再 加 上 能 够 廉价 完成 庞大 数据 处 理 的 计算 环境 ， 
该 公司 将 这 些 条 件 结合 起 来 ,对 土壤 、 水 体 、 气 温 等 条 件 对 农作物 收成 产生 的 影响 进行 分 
析 , 从 而 催生 出 了 气候 保险 这 一 商品 。 该 公司 的 CEO David Friedberg 先生 , 面 对 《纽约 
时 报 》 关 于 今后 业务 扩大 方面 的 提问 ,给 出 了 这 样 的 回答 : 

“只 要 能 够 长 期 获取 高 质量 的 数据 ,无论 是 加 拿 大 还 是 巴西 ,在 任何 地 方 都 能 够 提供 
我 们 的 服务 。 不 过 ,就 目前 来 看 ,我 们 认为 在 其 他 国家 还 不 能 够 免费 获取 像 美国 政府 所 提 
供 的 这 样 高 品质 的 数据 。” 


123 数据 市 场 的 兴起 


在 国家 、 地 方 政府 等 公职 机 关 不 断 努 力 强 化 开放 数据 的 同时 ,民间 组 织 为 了 促进 数据 
的 顺利 流通 ,也 设立 了 数据 的 交易 场所 一 一 数据 市 场 (Data Marketplace, 图 12-4)。 所 谓 
数据 市 场 ,就 是 将 人 口 统计 、 环 境 、 金 融 、 零 售 、 天 气 、 体 育 等 数据 集中 到 一 起 ,使 其 能 够 进 
行 交易 的 机 制 。 换 句 话说 ,就 是 数据 的 一 站 式 商店 。 


图 12-4 数据 市 场 


久 | 


厂 数 扎 导论 


目前 在 美国 ,除了 Factual、Infochimps 等 创业 型 企业 运营 的 数据 市 场 之 外 ,还 有 微软 
的 Windows Azure Marketplace 亚马逊 的 Public Data Sets on AWS 等 由 大 型 厂商 所 运 
营 的 市 场 。 

数据 市 场 的 基本 功能 包括 收费 .认证 、 数 据 格式 管理 .服务 管理 等 ,在 所 涉猎 的 数据 对 
象 .数据 丰富 程度 .收费 模式 ,数据 模型 .查询 语言 .数据 工具 等 方面 则 各 有 不 同 。 


12.3.1 Factual 


Factual 所 提供 的 数据 主要 是 世界 各 国 的 位 置信 息 ( 如 中 国 的 某 省 某 市 某 商店 的 地 址 
等 )。 除 此 之 外 ,还 提供 了 其 他 一 些 种 类 丰富 的 数据 ,如 “星巴克 含 2% 牛 奶 的 大 杯 饮料 的 
营养 成 分 数据 ”, 以 及 迈克 尔 。 杰 克 逊 (Michael Jackson)、 帕 丽 斯 .和 希尔顿 (Paris 
Hilton) ,约翰 尼 ， 德 普 (Johnny Depp) 等 名 人 的 身高 .体重 等 娱乐 圈 数 据 。 

其 数据 集 的 来 源 主要 是 网 络 抓 取 或 者 是 网 络 社 区 的 赠 予 。 目 前 公开 的 数据 集约 有 
50 万 组 ,可 以 通过 REST API 或 者 直接 下 载 的 方式 来 使 用 。 以 API 调用 的 方式 来 使 用 
基本 是 免费 的 ,但 在 需要 SLA( 服 务 品质 协议 ) 以 及 对 性 能 有 一 定 要 求 的 情况 下 ,需要 根 
据 用 量 来 收费 。 

Factual 所 提供 的 位 置信 息 ,被 运用 在 Facebook Places( 英 国 ) 以 及 Facebook spot( 日 
本 ) 的 签到 服务 上 。 


12.3.2 Windows Azure Marketplace 


这 是 由 微软 基于 自家 云 计 算 服 务 Windows Azure 和 SQL Azure Database 所 提供 的 
数据 市 场 。 

微软 召集 了 一 些 提供 数据 集 的 发 布 者 ,但 微软 只 是 提供 了 一 个 数据 交易 的 平台 ,而 并 
不 像 Factual 一 样 自己 收集 数据 集 。 该 服务 的 特点 是 ,除了 民间 组 织 在 这 个 平台 上 发 布 
数据 之 外 ,Data. gov、 联 合 国 等 公职 机 关 也 在 上 面 发 布 数据 。 截 至 2012 年 5 月 ,已 公开 的 
数据 达到 120 种 ,其 中 包括 “全 球 的 气象 数据 (历史 记录 )”、“ 按 邮政 编码 统计 的 美国 环境 
危险 度 级 别 " “欧洲 温 室 气 体 排放 量 "、“ 全 球 企业 信息 ”、“ 美 国 职 棒 大 联盟 (棒球 ) 的 球 队 
和 选手 成 绩 ( 包 括 从 过 去 一 直到 今天 的 比赛 )" 等 。 

数据 是 通过 OData 这 个 基于 Web 提供 数据 共享 ,操作 的 协议 来 统一 提供 的 。 微 软 
的 Excel、Visual Studio、SharePoint、PowerPivot 等 产品 都 支持 OData, 因 此 可 以 将 数据 
下 载 到 Visual Studio, 然 后 用 C# 来 开发 应 用 程序 。 应 用 开发 者 也 可 以 通过 基于 REST 
的 API 来 访问 这 些 数据 。 

数据 分 为 免费 和 收费 两 种 。 收 费 数 据 是 按 月 收费 的 ,其 中 有 些 数据 会 限制 Web API 
的 调用 次 数 , 也 有 些 数据 没有 这 个 限制 ( 即 可 以 随意 使 用 ) 。API 调用 次 数 是 以 事务 为 单 
位 来 进行 设置 的 ,根据 事务 数量 的 不 同 , 费 用 也 会 发 生变 化 。 
12.3.3 Infochimps 

美国 最 有 名 的 数据 市 场 当 属 Infochimps。 该 公司 堪 称 数据 行业 的 Amazon. com, 其 
业务 就 是 在 Web 上 销售 各 种 数据 (Infochimps 的 基础 架构 是 使 用 亚马逊 云 计 算 服 务 亚 马 
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逊 EC2 亚马逊 S3 来 运营 的 ) 。 

Infochimps 尤其 擅长 提供 SNS 方面 的 数据 集 。 例 如 ,在 表示 推 特 用 户 信用 度 的 
TrustRANK 中 ,并 不 仅仅 是 通过 关注 者 (粉丝 ) 的 数量 来 评分 的 ,而 是 采用 了 进一步 计算 
每 个 关注 者 拥有 多 少 关注 者 ,从 而 决定 评分 的 手法 。 

除 此 之 外 ,Infochimps 还 提供 了 各 种 各 样 丰富 的 Twitter 统计 数据 ,如 各 用 户 个 人 资 
料 页 面 的 背景 色 统 计数 据 , 按 关注 者 数量 对 用 户 数 进行 分 类 统计 的 数据 等 。 

除 推 特 以 外 ,Infochimps 还 提供 了 其 他 多 种 数据 。 小 到 以 好 玩 为 目的 的 数据 ,如 填 字 
游戏 中 出 现 的 10 万 多 个 单词 的 清单 ;大 到 能 够 运用 在 业务 中 的 数据 ,如 欧盟 2283 个 
WLAN 热点 .世界 各 国 IP 地 址 与 地 理 数据 (邮政 编码 、 州 市 、 地 区 编码 、 维 度 、 经 度 等 ) 相 
结合 而 成 的 列表 等 ,非常 值得 一 看 。 

和 微软 的 Windows Azure Marketplace 一 样 ,Infochimps 上 也 提供 美国 联邦 政府 的 
Data. gov 和 英国 政府 的 Data. gov. uk 中 的 数据 ,总 计 已 公开 的 数据 超过 了 15 000 组 。 从 
全 面 性 的 角度 来 看 ,Infochimps 可 以 说 是 绝对 的 冠军 。 

Infochimps 所 公开 的 数据 大 部 分 都 是 免费 的 ,即便 是 收费 的 数据 ,只 要 API 调用 次 
数 在 每 月 10 万 次 以 内 ,每 小 时 2000 次 以 内 ,就 可 以 免费 使 用 。 超 过 这 一 配额 时 ,需要 根 
据 API 调用 次 数 每 月 支付 费用 (如 50 万 次 20 美元 ,200 万 次 250 美元 等 ) 。 

Infochimps 会 向 数据 出 售 方 收取 每 次 交易 金额 的 30% 作 为 手续 费 ( 因 此 ,数据 销售 
方 可 以 分 到 交易 金额 的 70%) ,这 些 手续 费 就 是 Infochimps 的 收入 来 源 。 


12.3.4 Public Data Sets On AWS 


Public Data Sets on AWS 是 作为 亚马逊 云 计 算 服 务 的 一 部 分 提供 的 一 个 公有 数据 
集 仓库 。 该 服务 提供 包括 Ensenbl 计划 的 人 类 基因 组 数据 .美国 国情 调查 数据 .美国 国立 
生物 技术 信息 中 心 (National Center of Biotechnology Information ,NCBI) 的 UniGene( 遗 
传 基 因 与 数 十 万 个 表达 序列 标签 (EST) 所 构成 的 转录 组 数据 库 ) 等 。 从 公开 的 数据 来 看 ， 
并 非 是 用 于 商业 服务 ,而 更 像 是 面向 科学 家 和 研究 者 的 数据 库 。 

公开 的 数据 是 以 用 亚马逊 的 EC2、S3 等 云 计 算 服 务 进 行 分 析 处 理 为 前 提 的 。 数 据 本 
身 是 免费 提供 的 ,用 户 只 要 按照 所 使 用 的 服务 器 和 存储 服务 用 量 来 付费 即 可 。 也 就 是 说 ， 
需要 支付 的 只 是 云 计算 服务 的 使 用 费 而 已 。 

利用 数据 存放 在 云端 这 一 点 ,就 可 以 很 容易 地 与 其 他 用 户 进 行 协作 。 例 如 ,在 进行 数 
据 分 析 时 ,可 以 利用 事先 构筑 的 服务 器 镜像 。 


12.3.5 不 同 的 商业 模式 


各 家 运营 数据 市 场 的 公司 都 没有 确立 一 个 明确 的 商业 模式 ,不 过 这 些 公 司 都 设计 了 各 
自 不 同 的 收益 模型 。 例 如 ,Factual 和 Infochimps 都 试图 建立 依靠 数据 集 本 身 来 获得 收益 的 
商业 模式 ,所 提供 的 数据 除了 从 合作 伙伴 企业 征集 外 ,自己 也 会 通过 网 页 抓 取 来 收集 。 

另 一 方面 ,微软 的 Windows Azure Marketplace 和 亚马逊 的 Public Data Sets on 
AWS 则 不 期 望 通过 数据 使 用 费 本 身 来 获得 收益 。 由 于 这 两 家 公司 都 是 在 各 自 运 营 的 云 
计算 平台 上 提供 数据 的 ,因此 在 云端 工作 的 应 用 程序 可 以 很 容易 地 集成 数据 市 场 中 的 数 
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据 , 从 而 提升 了 应 用 的 价值 ,并 通过 收取 云 计算 平台 的 使 用 费 来 获得 收益 。 他 们 所 提供 的 
数据 不 是 自己 收集 的 ,而 是 由 合作 伙伴 企业 提供 的 。 

从 数据 市 场 的 性 质 上 看 ,其 数据 量 必然 随 着 时 间 的 推移 而 不 断 增长 。 因 此 ,作为 支撑 
的 基础 架构 必须 拥有 足够 的 可 扩 放 性 。 当 数据 调用 集中 时 ,需要 足够 承受 大 量 访问 的 可 
用 性 。 微 软 和 亚马逊 通过 运用 云 计 算 来 平稳 运营 数据 市 场 的 服务 ,从 结果 上 看 ,相当 于 展 
现 了 自身 云 计 算 平台 的 坚固 性 。 

特别 是 微软 ,通过 提供 数据 市 场 ,也 可 以 拉动 Office (Excel)、SharePoint、 Visual 
Studio 等 产品 的 销售 额 。 正 如 苹果 通过 iTunes 大 幅 提 升 iPod 的 销量 一 样 ,由 于 能 够 容 
易 地 导入 和 运用 Windows Azure Marketplace 中 的 数据 ,上 述 产 品 群 的 销售 增长 也 很 值 
得 期 待 。 

未 来 的 发 展 趋 势 , 应 该 是 将 LOD(Linked Open Data) 与 数据 市 场 的 思路 进行 融合 ， 
从 而 确保 数据 市 场 之 间 的 兼容 性 。 


124 将 原创 数据 变 为 增值 数据 


无 论 是 与 其 他 公司 结 成 联盟 ,还 是 利用 数据 聚合 商 ,如 果 自 己 的 公司 拥有 原创 数据 的 
话 , 接 下 来 就 可 以 通过 与 其 他 公司 的 数据 进行 整合 ,来 催生 出 新 的 附加 价值 ,从 而 升华 成 
为 增值 数据 。 这 样 能 够 产生 相 乘 的 放大 效果 .这 也 是 大 数据 运用 的 真正 价值 之 一 

选择 什么 公司 的 数据 与 自己 公司 的 原创 数据 整合 ,这 需要 想象 力 。 在 自己 公司 内 部 
认为 已 经 没什么 用 的 数据 ,对 于 其 他 公司 来 说 ,很 可 能 就 是 求 之 不 得 的 宝贝 。 例 如 ,耐克 
提供 了 一 款 面向 iPhone 的 慢跑 应 用 Nike 十 GPS( 图 12-5)。 它 可 以 通过 使 用 GPS 在 地 图 
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图 12-5 ”Nike 十 GPS 
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上 记录 跑步 的 路 线 , 将 这 些 数据 匿名 化 并 进行 统计 ,就 可 以 找 出 跑步 者 最 喜欢 的 路 线 。 在 
体育 用 品 店 看 来 ,这样 的 数据 在 讨论 门店 选 址 计划 上 是 非常 有 效 的 。 此 外 ,在 考虑 具备 淋 
浴 、 储 物 柜 功能 的 收费 休息 区 以 及 自动 售 货 机 的 设置 地 点 、 售 货品 种 时 ,这 样 的 数据 也 是 
非常 有 用 的 。 

对 于 拥有 原创 数据 的 企业 和 数据 聚合 商 来 说 ,不 应 该 将 目光 局 限 在 自己 的 行业 中 ,而 
应 该 以 更 加 开阔 的 视野 来 制定 数据 运用 的 战略 。 


125 大 数据 未 来 展望 


大 数据 是 继 云 计算 移动 互联 网 之 后 ,信息 技术 领域 的 又 一 大 热门 话题 。 根 据 预测 ， 
大 数据 将 继续 以 每 年 40% 的 速度 持续 增加 (图 12-6) ,而 大 数据 所 带 来 的 市 场 规模 也 将 以 
每 年 翻 一 番 的 速度 增长 。 有 关 大 数据 的 话题 也 逐渐 从 讨论 大 数据 相关 的 概念 ,转移 到 研 
究 从 业务 和 应 用 出 发 如 何 让 大 数据 真正 实现 其 所 蕴含 的 价值 。 大 数据 无 疑 给 众多 的 IT 
企业 带 来 了 新 的 成 长 机 会 ,同时 也 带 来 了 前 所 未 有 的 挑战 。 
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图 12-6 ”消费 者 的 数字 行为 


随 着 数据 量 的 持续 增 大 ,学 术 界 和 工业 界 都 在 关注 着 大 数据 的 发 展 ,探索 新 的 大 数据 
技术 、 开 发 新 的 工具 和 服务 ,努力 将 “信息 过 载 " 转 换 成 “信息 优势 "。 大 数据 将 跟 移动 计算 
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和 云 计算 一 起 成 为 信息 领域 企业 所 “必须 有 ?的 竞争 力 。 如 何 应 对 大 数据 所 带 来 的 挑战 ， 
如 何 抓 住 机 会 真正 实现 大 数据 的 价值 ,将 是 未 来 信息 领域 持续 关注 的 课题 ,并 同时 会 带 来 
信息 领域 里 诸多 方面 的 突破 性 发 展 。 


12.5.1 大 数据 存储 和 管理 


随 着 数据 量 的 迅猛 增加 ,如 何 有 效 地 存储 和 管理 不 同 来 源 \ 不 同 标准 、 不 同 结 构 ,不同 
实时 性 要 求 的 大 数据 已 经 成 为 信息 领域 的 一 大 课题 。 

早期 IDC 的 一 项 研究 报告 中 就 预测 2012 年 到 2020 年 ,新 增 的 存储 总 量 将 增长 8 倍 ， 
但 是 仍 比 2020 年 数字 世界 规模 的 四 分 之 一 还 小 。 因 此 ,在 数字 内 容 总 量 和 有 效 数字 存储 
空间 之 间 就 有 了 一 个 日 益 增 大 的 缺口 。 昌 然 大 数据 的 特点 之 一 是 价值 稀 朴 ,然而 因为 种 
种 原因 这 些 数据 还 是 具有 保留 价值 。 因 此 采用 什么 样 的 存储 技术 和 策略 来 解决 大 数据 存 
储 问 题 将 是 未 来 必须 要 解决 的 问题 之 一 。 

首先 数据 去 重 和 数据 压缩 技术 要 有 所 突破 。IDC 的 数据 表明 将 近 75% 的 数字 世界 
是 副本 ,也 就 是 说 只 有 25% 的 数据 是 独一无二 的 。 当 然 副 本 在 很 多 情况 下 是 必须 存在 
的 ,例如 ,各 种 法 律 法 规 通常 要 求 多 个 副本 的 存在 ,多 副本 也 是 提高 系统 可 靠 性 的 一 种 有 
效 方法 。 即 便 如 此 ,还 是 有 很 多 由 于 副本 而 造成 数据 元 余 。 降 低 副 本 是 提高 存储 效率 和 
降低 存储 成 本 的 一 个 首选 领域 。 

另外 ,大 数据 对 存储 系统 的 可 扩展 性 要 求 极 高 。 一 个 好 的 大 数据 存储 架构 必须 具备 
出 色 的 横向 可 扩展 能 力 , 从 而 使 得 系统 的 存储 力 可 以 随 着 存储 量 需 求 的 增加 而 线性 增加 。 


12.5.2 传统 IT 系统 到 大 数据 系统 的 过 渡 


大 数据 的 有 用 性 毋庸 置疑 ,问题 的 关键 是 如 何 能 够 开发 出 经 济 实 用 的 大 数据 应 用 解 
决 方案 ,使 得 用 户 能 够 利用 手中 掌握 的 各 种 数据 ,揭示 数据 中 所 存在 的 价值 ,从 而 带 来 在 
市 场 上 的 竞争 优势 。 这 里 面 使 用 大 数据 的 代价 和 大 数据 可 用 性 是 尤为 关键 的 两 个 问题 。 

首先 是 代价 : 如 果 为 了 实现 大 数据 的 价值 ,需要 用 户 重 新 搭建 一 套 从 硬件 到 软件 的 
全 新 IT 系统 ,这 样 的 代价 对 于 多 数 客户 来 说 都 难以 接受 。 更 可 行 的 方案 是 在 现 有 的 数 
据 平台 的 基础 上 ,做 渐进 式 的 改进 ,逐渐 使 现 有 的 IT 系统 具备 处 理 和 分 析 大 数据 的 能 
力 。 例 如 ,在 现 有 的 IT 平台 上 加 入 大 数据 的 组 件 ( 如 Hadoop、MapReduce、R 等 ) ,在 现 
有 的 商业 智能 的 平台 上 引入 一 些 大 数据 分 析 的 工具 .来 实现 大 数据 分 析 功 能 。 要 实现 上 
述 功能 , 现 有 的 数据 库 系 统 和 Hadoop 的 无 颖 连接 将 是 非常 关键 的 技术 。 使 得 现 有 的 基 
于 关系 数据 库 的 系统 .工具 和 知识 体系 能 够 方便 地 迁移 到 Hadoop 生态 系统 中 ,这 就 要 求 
关系 数据 库 的 查询 能 够 直接 在 Hadoop 文件 系统 上 进行 而 不 是 通过 中 间 步 骤 ( 如 外 部 表 
的 方式 ) 来 实现 。 

其 次 是 可 用 性 : 大 数据 的 根本 是 要 为 用 户 带 来 新 的 价值 ,而 通常 这 些 用 户 是 各 个 职 
能 部 门 的 业务 人 员 而 非 数 据 科 学 家 或 IT 专家 ,所 以 大 数据 分 析 的 平民 化 尤为 重要 。 大 
数据 科研 人 员 要 和 业务 人 员 密 切合 作 , 借 助 可 视 化 技术 等 ,真正 使 大 数据 的 应 用 做 到 直 
观 、 易 用 ,为 客户 带 来 可 操作 的 洞察 和 可 度量 的 结果 。 同 时 ,数据 分 析 将 更 加 趋 于 网 络 化 。 
基于 云 计算 的 分 析 即 服务 ,使 得 大 数据 分 析 不 再 局 限于 拥有 昂贵 的 数据 分 析 能 力 的 大 企 
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业 , 中 小 企业 甚至 个 人 也 可 以 通过 购买 数据 分 析 服 务 的 方式 来 开发 大 数据 分 析 应 用 。 
12.5.3 大 数据 分 析 


大 数据 中 所 蕴含 的 价值 需要 挖掘 。 而 这 种 大 海 捞 针 的 工作 极 富 挑战 性 。 数 字 世 界 是 
由 各 种 类 型 的 数据 组 成 的 ,然而 , 绝 大 多 数 新 数据 都 是 非 结构 化 的 。 这 意味 着 我 们 通常 对 
这 些 数 据 知之 其 少 , 除 非 这 些 非 结 构 化 的 数据 通过 某 种 方式 被 特征 化 或 者 被 标记 而 形成 
半 结 构 化 的 数据 。 依 照 最 粗略 的 估算 ,数字 世界 中 被 “标记 ”的 信息 量 只 占 信息 总 量 的 大 
约 3% ,而 其 中 被 用 于 分 析 的 却 只 占 整 个 数字 总 量 的 0. 5%。 这 就 是 人 们 常 说 的 "大 数据 
缺口 ”一 一 未 被 开发 的 信息 。 昌 然 大 数据 的 价值 稀 朴 ,但 随 着 数据 总 量 的 增加 ,大 数据 中 
蕴含 着 巨大 的 潜在 价值 ,而 挖掘 这 些 潜在 的 价值 需要 大 量 的 投入 和 技术 的 突破 。 

大 数据 分 析 需 要 革命 性 的 理论 和 新 算法 的 出 现 。 和 传统 的 抽样 方法 不 同 ,大 数据 分 
析 是 全 数据 的 聚合 分 析 , 因 此 很 多 传统 的 数据 分 析 的 算法 不 一 定 能 够 适用 于 大 数据 环境 。 
由 于 数据 量 的 巨大 和 网 络 资源 的 有 限 , 传 统 的 将 数据 传送 到 计算 所 在 的 地 点 进行 处 理 的 
方式 不 再 适合 。 大 数据 时 代 呼 唤 由 以 计算 为 中 心 到 以 数据 为 中 心 的 改变 。 大 数据 环境 下 
的 计算 需要 将 计算 在 就 近 数 据 的 地 点 完成 ,然后 再 把 结果 汇总 到 中 心 节点 ,最 大 限度 地 减 
少数 据 移 动 。 大 数据 分 析 必 须 是 分 布 式 与 并 行 化 兼顾 的 系统 架构 。 然 而 ,目前 常用 的 数 
据 分 析 的 算法 并 不 都 能 够 被 并 行 化 ,需要 研究 和 开发 适合 大 数据 环境 的 新 的 算法 。 

为 了 实现 全 数据 分 析 从 而 能 够 发 掘 出 新 的 有 价值 的 洞察 力 ,要 求 大 数据 分 析 系 统 能 
够 综合 分 析 大 量 且 多 种 类 型 的 数据 。 这 就 要 求 大 数据 系统 要 能 够 把 结构 化 数据 的 方法 、 
工具 和 新 兴 的 非 结 构 化 数据 的 方法 和 工具 有 机 地 结合 。 新 的 系统 要 兼备 大 规模 并 行 处 理 
数据 库 的 高 效率 同时 又 具有 Hadoop 平台 高 扩展 性 的 特点 (图 12-7) 。 
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图 12-7 Hadoop 处 理 原理 


许多 大 数据 应 用 需要 实时 的 数据 分 析 能 力 ,因此 提高 数据 分 析 的 效率 和 速度 是 大 数 
据 分 析 的 又 一 挑战 。 为 此 人 们 在 这 方面 做 了 很 多 尝试 .例如 ,并 行 计算 、 内 存 数据 库 等。 
很 显然 ,只 靠 内 存 数 据 库 的 方法 来 提高 数据 分 析 速 度 不 太 可 行 。 成 本 是 其 中 的 一 个 关键 
因素 ,虽然 内 存 的 价格 按 每 18 个 月 降低 30% 左 右 的 速度 降低 ,但 数据 的 增长 速度 更 快 ， 
以 每 18 个 月 40% 的 速度 增长 。 

云 计算 是 提高 大 数据 分 析 能 力 的 一 个 可 行 的 方案 。 云 计算 和 大 数据 相互 依存 共同 发 
展 , 云 计算 为 大 数据 提供 弹性 可 扩展 的 存储 和 高 效 的 数据 并 行 处 理 能 力 , 大 数据 则 为 云 计 
算 提 供 了 新 的 商业 价值 。 


大 数据 导论 


12.5.4 大 数据 安全 


大 数据 给 信息 安全 带 来 了 新 的 挑战 (图 12-8)。 随 着 云 计算 、 社 交 网 络 和 移动 互联 网 
的 兴起 ,对 数据 存储 的 安全 性 要 求 也 随 之 增加 。 互 联网 给 人 们 的 生活 带 来 了 方便 ,与 此 同 
时 也 使 得 个 人 信息 的 保护 变 得 更 加 困难 。 各 种 在 线 应 用 中 共享 数据 的 比例 在 增 大 。 这 种 
大 量 的 数据 共享 的 一 个 潜在 问题 就 是 信息 安全 。 近 些 年 ,信息 安全 技术 发 展 迅 速 ,然而 企 
图 破坏 和 规避 信息 保护 的 技术 和 工具 也 在 发 展 , 各 种 网 络 犯罪 的 手段 更 加 不 易 追 踪 和 
防范 。 
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国内 动荡 鸡 帆 行动 


建筑 火灾 自然 灾害 


与 恢复 相关 的 


图 12-8 大 数据 安全 分 析 


信息 安全 的 另 一 方面 是 管理 。 在 加 强 技术 保护 的 同时 ,加 强 全 民 的 信息 安全 意识 , 完 

善信 息 安 全 的 政策 和 流程 也 是 至 关 重 要 的 。 即 使 技术 再 先进 ,如 果 企 业 的 员工 忽视 公司 
的 信息 安全 政策 ,例如 没有 备份 应 该 备份 的 数据 ,没有 及 时 更 新 安全 软件 等 ,即使 有 先进 
的 技术 保障 ,也 不 能 保证 企业 信息 万 无 一 失 。 
大 数据 时 代 信 息 安 全 需要 更 完备 的 信息 安全 标准 。 例 如 ,如 何 规范 电子 商务 中 客户 
的 管理 ,保障 客户 信息 的 安全 ,在 大 数据 时 代 提 出 了 新 的 要 求 。 客 户 的 身份 数据 、 购 
录 等 如 果 和 其 他 社交 网 络 中 客户 的 行为 与 记录 放 在 一 起 进行 综合 分 析 , 可 能 会 造成 
意 想 不 到 的 信息 泄漏 。 什 么 样 的 个 人 信息 可 以 保留 ,什么 组 织 和 机 构 可 以 有 权利 保存 、 收 
集 和 汇总 私人 信息 ,这 都 需要 制定 详尽 的 信息 管理 法 规 ,并 由 各 部 门 参与 协调 从 而 切实 保 
证 客户 的 信息 安全 。 另 一 方面 ,大 数据 也 为 数据 安全 带 来 了 新 的 技术 突破 的 可 能 。 通 过 
大 数据 分 析 的 方法 ,实现 信息 安全 策略 的 动态 调整 ,从 而 更 好 地 提高 信息 安全 措施 的 实时 
性 和 完备 性 。 


12.5.5 数据 科学 


大 数据 的 兴起 ,催生 了 一 个 新 的 学 科 即 数据 科学 。 数 据 科 学 团队 成 为 连接 大 数据 和 
行业 应 用 的 桥梁 ,他 们 要 解决 的 问题 是 如 何 实现 大 数据 的 价值 (图 12-9)。 这 是 一 个 跨 学 
科 的 团队 , 申 多 种 角色 的 人 员 组 成 ,包括 数据 科学 家 、 程 序 员 、 统 计 人 员 、 业 务 人 员 等 。 数 
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据 科学 家 是 有 着 开阔 视野 的 复合 型 人 才 。 他 们 既 有 坚实 的 数据 科学 基础 ,如 计算 机 科学 、 
统计 学 和 数学 ,同时 又 有 广泛 的 业务 知识 和 经 验 。 数 据 科 学 家 是 数据 科学 团队 的 核心 ,他 
们 会 使 用 R、Hadoop、Greenplum 等 大 数据 工具 。 除 了 和 数据 库 管理 员 、 统 计 人 员 、 编 程 
人 员 合 作 以 外 ,大 数据 科学 家 还 与 业务 管理 人 员 交 流 与 合作 ,从 而 制定 出 适合 各 种 决策 人 
员 的 大 数据 策略 和 计划 。 
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图 12-9 数据 科学 
数据 科学 依然 处 于 发 展 初 期 ,大量 的 数据 探索 和 处 理工 具 正 在 被 开发 。 虽 然 市 场 对 
数据 科学 家 的 需求 日 益 增多 ,但 目前 培养 数据 科学 家 的 体制 尚 不 健全 ,能 够 提供 的 数据 科 
学 家 远 远 不 能 满足 需求 。 我 们 生活 在 一 个 不 断 增长 和 变化 的 数字 世界 中 ,如 何 四 了 驭 这 些 
数字 是 IT 领域 未 来 面临 的 挑战 。 
【延伸 阅读 】 
最 值得 关注 的 大 数据 领域 33 大 预测 


2016 年 大 数据 领域 会 发 生 什 么 情况 ? 考虑 到 如 今 在 深层 神经 网 络 和 规范 性 分 析 方 
面 取得 的 进展 ,你 可 能 觉得 这 个 问题 很 好 回答 。 而 实际 上 ,来 自 业 界 的 大 数据 预测 大 不 相 
同 ,下 面 是 精 选 出 的 最 值得 关注 的 33 个 预测 。 


数据 平民 崛起 


甲骨 文公 司 预测 一 种 新 型 用 户 : 数据 平民 (Data Civilian) 会 崛起 。 该 公司 称 :“ 虽 然 
复杂 的 数据 统计 可 能 仍 局 限于 数据 科学 家 ,但 数据 驱动 的 决策 不 会 是 这 样 。 在 未 来 一 年 ， 
更 简单 的 大 数据 发 现 工具 让 业务 分 析 员 可 以 寻找 企业 Hadoop 集群 中 的 数据 集 , 将 它们 
重新 做 成 新 的 混搭 组 合 , 甚 至 运用 探索 性 机 器 学 习 方法 来 分 析 它 们 。” 


“大 数据 "会 消亡 


Nucleus Research 公司 公开 发 表 了 不 同意 见 , 预 测 我 们 所 知道 的 大 数据 会 消亡 。 该 
公司 称 :“ 在 过 去 两 年 ,每 家 公司 及 其 人 员 似 乎 都 推出 了 某 种 形式 的 大 数据 解决 方案 。 是 
该 告别 新 奇 事物 综合 症 的 时 候 了 。 用 户 会 像 对 待 任何 数据 那样 对 待 和 访问 大 数据 ,而 不 
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是 着 手 解决 大 数据 分 析 这 一 项 庞大 又 艰巨 的 任务 。 
风险 投资 公司 更 关注 大 数据 给 出 的 结论 


据 Opera Solutions 公司 的 高 级 副 总 裁 Keri Smith 声称 ,由 于 风险 投资 公司 往 数 据 初 
创 公司 纷纷 投入 资金 ,是 时 候 开始 提出 尖锐 的 问题 了 。Smith 问 道 :“ 大 数据 解决 方案 真 
正 的 投资 回报 率 (ROD) 如 何 ? 公司 如 何 才能 跨 过 部 门 级 部 署 这 个 阶段 ,让 大 数据 在 整个 
企业 创造 的 价值 实现 最 大 化 ? 又 有 哪些 有 意义 的 使 用 场合 适用 于 众多 垂直 领域 ? 要 是 中 
公司 现在 没有 提出 这 类 问题 ,积极 寻求 答案 ,应 该 很 快 就 会 。 


机 器 学 习 和 人 的 洞察 力 组 合 渗透 新 行业 


Spare5 公司 的 首席 执行 官 Matt Bencke 表示 ,我 们 在 2016 年 会 看 到 数据 绝地 武士 
(Data Jedis) 的 兴起 。 他 写 道 :“ 将 来 被 人 工 智 能 政变 的 工作 会 比 以 往 任何 时 候 都 要 多 ， 
“数据 绝地 武士 ?会 变 成 最 抢手 的 员工 。 机 器 学 习 和 人 的 洞察 力 这 对 组 合 会 渗透 到 新 行 
业 , 包 括 医疗 保健 和 安全 行业 ,员工 需要 灵活 适应 以 提供 不 同 服务 ,不 然 就 会 落 在 后 面 。” 

数据 科学 在 银行 界 大 放 光 彩 

数据 科学 咨询 公司 Profusion 的 首席 执行 官 Mike Weston 预测 ,数据 科学 在 银行 界 
会 大 放 光 彩 。 他 写 道 :“ 人 金融 业 是 率先 采用 数据 科学 技术 /方法 的 行业 之 一 。 不 过 ,所 有 
银行 服务 公司 采用 数据 科学 的 步调 远 远 没有 统一 。2016 年 ,我 预计 这 种 局 面 会 有 所 改 
变 。 更 好 地 利用 数据 和 服务 个 性 化 会 从 金融 市 场 进入 到 零售 银行 领域 。 这 会 给 市 场 营 
销 、 客 户 服务 和 产品 开发 带 来 深远 影响 。 


人 工 智 能 和 认 知 计算 让 个 性 化 医疗 成 为 现实 


先进 的 人 工 智能 引起 机 器 人 成 为 统治 者 ,这 种 场景 吓 坏 了 Elon Musk。 不 过 据 Franz 
公司 的 认 知 科学 家 兼 首席 执行 官 Jans Aasman 声称 ,应 该 将 人 工 智能 归 为 “友好 的 技术 ” 
这 一 列 。 他 说 :“2016 年 及 以 后 ,人 工 智 能 和 认 知 计算 将 使 个 性 化 医疗 成 为 现实 ,帮助 拯 
救 患 有 军 见 疾病 的 病人 ,并 改善 整体 的 医疗 保健 状况 。” 


首席 数据 官 将 成 为 信息 技术 领域 的 “新 宠儿 ” 


Blazent 公司 首席 技术 官办 公 室 负责 人 Michael Ludwig 认为 ,首席 数据 官 (CDO) 会 
成 为 信息 技术 领域 的 “新 宠儿 ”, 永 远 让 办 公 室 政治 更 显 错综复杂 。 他 写 道 :“ 正 是 由 于 大 
数据 很 复杂 ,又 需要 完整 而 准确 的 数据 ,首席 数据 官 会 变 得 越 来 越 重要 。 因 而 ,首席 技术 
官 和 首席 信息 官 需要 给 首席 数据 官 让 出 地 方 ,除非 确立 了 明确 界定 的 角色 ,并 成 立 了 相关 
团队 ,否则 高 层 管 理 团 队 当 中 会 出 现 紧张 局 势 。” 


首席 洞察 官 成 为 大 数据 整理 过 程 的 关键 领导 者 
但 不 是 每 个 人 都 这 么 认为 ,其 中 包括 PROS 公司 的 首席 远见 官 Craig Zawada。 
“2016 年 ,我 们 会 开始 看 到 被 任命 的 首席 数据 官 日 渐 式微 ,这 是 过 去 的 一 种 角色 。 相 反 ， 
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2016 年 会 出 现 首席 洞察 官 ,这 类 人 将 成 为 大 数据 整理 过 程 中 的 关键 领导 者 。” 
云 服务 被 充分 利用 


但 是 颇 有 势力 的 CIO 能 重新 发 号 施 令 吗 ? Cazena 公司 创始 人 兼 首席 执行 官 Prat 
Moghe 预测 会 这 样 。 他 写 道 :“2016 年 ,CIO 们 会 充分 利用 企业 就 绪 的 云 服 务 , 作 为 中 间 
人 提供 这 样 的 云 服务 , 既 满 足 IT 部 门 在 治理 、 合 规 和 安全 等 方面 的 要 求 , 又 满足 业务 部 
门 在 敏捷 性 和 响应 能 力 等 方面 的 要 求 。” 


流 分 析 逐 渐 成 熟 


DataTorrent 公司 的 首席 执行 官 兼 联合 创始 人 Phu Hoang 预测 , 流 分 析 会 开始 成 熟 
起 来 ,并 在 大 数据 阵营 中 证 明 其 价值 。 他 说 :“ 虽 然 许多 公司 已 经 认可 了 实时 流 非常 重要 
这 一 点 ,但 我 们 会 看 到 用 户 希 望 更 进一步 ,确定 流 分 析 使 用 场合 。 在 接 下 来 一 年 ,使 用 流 
分 析 工 具 的 客户 会 变 得 更 加 成 熟 , 要 求 流 分 析 有 明确 的 投资 回报 率 。” 


实时 分 析 异 常 火爆 


实时 分 析 在 明年 会 很 火爆 ,这 个 我 们 懂 。 不 过 据 MongoDB 公司 的 战略 和 产品 营销 
副 总 裁 Kelly Stirman 声称 ,一 项 技术 : Apache Kafka 比 其 余 技术 更 苦 人 注目 。Stirman 
写 道 :“Kafka 将 成 为 企业 数据 基础 设施 的 一 个 重要 集成 点 ,为 构建 智能 分 布 式 系统 提供 
便利 。Kafka 及 其 他 流 分 析 系 统 ( 比 如 Spark 和 Storm) 会 补充 数据 库 , 成 为 跨 应 用 程序 
和 数据 中 心 管理 数据 的 整个 企业 堆栈 的 关键 部 分 。” 


大 数据 让 娱乐 更 加 “娱乐 


喜欢 鼓乐 ? FirstFuel Software 公司 的 首席 数据 科学 家 Badril Raghavan 表示 ,那么 
你 一 定 会 爱 上 2016 年 。“ 在 今后 几 个 月 ,我 们 会 看 到 企业 和 个 人 利用 数据 和 分 析 工 具 , 面 
对 包括 能 源 、 体 育 、 社 会 公益 和 音乐 在 内 的 众多 行业 ,提供 个 性 化 、 引 人 入 胜 的 体验 。 比 如 
说 ,人 们 将 来 可 以 利用 数据 ,根据 个 人 喜好 (例如 偏爱 鼓乐 ) 改 编 歌曲 。” 


物 联 网 影响 半导体 行业 


物 联 网 会 如 何 影响 半导体 行业 ? IT 传奇 人 物 Ray Zinn 对 此 有 几 点 看 法 。 他 写 道 : 
“你 会 看 到 设计 和 制造 出 现 更 明显 的 分 工 。 晶 圆 厂 的 使 命 就 是 扩大 规模 ,服务 于 几 十 亿 消 
费 者 和 新 兴 的 物 联网 市 场 。 设 计 将 会 与 制造 脱离 开 来 ,分 担 市 场 风险 。 创 新 将 是 设计 公 
司 的 生存 之 道 , 而 不 断 提高 效率 才 是 晶 圆 厂 的 制胜 秘诀 。 问 题 是 , 接 下 来 会 出 现 什 么 ? 到 
时 难免 会 出 现 新 的 市 场 和 设备 ,从 而 推动 行业 呈现 新 的 井喷 式 增长 。 物 联网 好 比 是 沉睡 
的 巨人 ,不 过 我 觉得 它 只 是 在 打上 且 而 已 。” 


机 器 学 习 、 大 数据 自动 化 和 人 工 智能 大 放 异 彩 
Infosys 公司 高 级 副 总 裁 兼 平台 、 大 数据 和 分 析 部 门 主管 Abdul Razack 表示 ,机 器 学 
习 、 大 数据 自动 化 和 人 工 智 能 在 2015 年 大 出 风头 ,明年 会 出 更 大 的 风头 。Razack 说 : 
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“2016 年 ,企业 更 广泛 地 采用 人 工 智 能 技术 替代 人 工 重 复 性 任务 的 步伐 会 快速 加 快 。 他 
提 到 ,丰田 公司 最 近 往 人 工 智 能 方面 投入 了 10 亿美 元 。 大 数据 自动 化 已 经 在 发 展 , 不 过 
2017 年 “会 得 到 更 广泛 的 应 用 ,人 的 独特 能 力 ( 即 拿 来 复杂 问题 后 给 出 创造 性 的 解决 办 
法 ) 显 得 更 重要 。” 特 斯 拉 的 无 人 驾驶 汽车 内 置 了 机 器 学 习 技 术 , 但 2017 年 , “机 器 学 习 会 
悄悄 进入 到 千家 万 户 , 让 我 们 身边 的 物件 不 仅仅 是 联网 而 已 。” 


合并 兴起 的 关键 年 


许多 人 预计 2016 年 大 数据 领域 会 出 现 激动 人 心 的 事情 。Logi Analytics 公司 的 解决 
方案 工程 和 服务 副 总 裁 Charles Caldwell 却 不 这 么 认为 。“ 如 果 我 展望 2016 年 ,并 不 觉 
得 会 出 现 许多 激动 人 心 的 事情 。 其 他 厂商 已 给 出 了 云 计 算 、 视 觉 分 析 和 移动 等 方面 的 预 
测 ,但 是 那些 大 多 是 安定 下 来 的 旧 趋势 。 在 我 看 来 ,2016 年 会 是 合并 兴起 和 为 下 一 大 热 
门 打 基础 的 一 年 。” 


副本 数据 管理 (CDM) 迎 来 春天 


“最 想象 不 到 奖 ” 授 予 Catalogic Software 公司 的 产品 营销 高 级 经 理 Peter Eicher。 我 
们 倒 不 是 指 他 的 这 一 预测 : 副本 数据 管理 (CDM)“ 是 迎 来 大 好 时 期 的 技术 一 一 不 仅 这 个 
领域 出 现 新 厂商 , 老 派 厂商 也 在 跟风 ,这 就 是 最 好 的 位 证 ”这 完全 合情合理 。 不 ,我 们 之 
所 以 提名 Peter 是 因为 他 的 这 一 疯狂 预测 : 纽约 尼克 斯 队 会 车 得 NBA 总 冠军 。 他 承认 : 
“是 的 ,结果 不 是 。 我 不 可 能 一 直 预 测 正确 。 不 过 话 又 说 回来 ,这 个 预测 已 连续 错 了 
42 年 。” 


大 数据 泄密 事件 频 发 


大 数据 领域 的 “ 肖 吕 的 僻 比 "(Debbie Downer) 奖 授予 BlueTalon 公司 的 首席 执行 官 
Eric Tilenius, 因 为 他 预测 ,大 企业 爆 出 大 数据 泄密 事件 的 步伐 可 能 会 加 快 。 他 写 道 : 
“2016 年 ,缺乏 统一 的 数据 治理 ,可 能 会 导致 企业 界 选 今 面临 的 最 大 的 安全 方面 冲击 一 一 
这 相当 于 移动 技术 的 问世 给 传统 企业 边界 带 来 的 冲击 。 依 赖 支离破碎 的 方法 来 控制 数据 
访问 , 即 面 对 不 断 变 化 的 数据 格局 采用 不 一 致 的 政策 ,只 会 在 企业 数据 保护 方面 留 下 
大 洞 。” 


微服 务 架 构 有 所 突破 


你 在 搞 微服 务 吗 ? 据 SaaS 厂商 Workday 声称 ,如 果 你 现在 没 搞 , 很 快 会 摘 。 该 公司 
声称 :“ 很 显然 ,内 部 部 署 与 云 之 争 已 结束 , 云 赢 了 。 不 过 ,并 非 构建 的 所 有 云 架构 都 一 个 
样 。 微 服务 架构 会 突破 Netflix 等 消费 者 互联 网 设计 领域 .成 为 自 向 云 转变 以 来 企业 应 用 
软件 领域 最 重大 的 架构 进步 。” 

大 数据 分 析 扩 大 领域 

TARGIT 公司 首席 技术 官 Ulrik Pederson 表示 ,大 数据 有 难度 ,许多 公司 在 2016 年 
会 竟 力 搞 好 大 数据 。 他 写 道 :“2016 年 大 数据 分 析 会 扩大 领域 ,一 些 工具 让 企业 用 户 有 
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可 能 在 需要 时 对 大 数据 执行 全 面 的 自助 式 探索 ,不 需要 IT 部 门 的 大 力 指 导 。 对 应 于 我 
的 第 一 个 预测 ,我 预计 先进 分 析 项 目 在 众多 行业 会 大 幅 增加 。 然 而 ,这 并 不 意味 着 它们 会 
威 葬 ……- 要 是 听 到 许多 厂商 和 客户 在 成 功 实 施 项 目 上 过 到 困难 ,我 也 不 会 觉得 惊讶 。” 


认 知 技术 、 数 据 科学 会 有 进展 


国际 数据 分 析 研 究 所 (International Institute of Analytics) 预 测 便 于 谈 入 式 分 析 的 分 
析 微 服务 会 大 行 其 道 。 这 家 独立 研究 和 咨询 公司 还 预测 , 认 知 技术 .数据 科 学 和 数据 精 选 
等 领域 会 取得 进展 。 该 组 织 表示 ,由 于 许多 大 学 开设 新 课程 ,分 析 人 才 危 机 有 望 得 到 
缓解 。 


非 数据 专业 人 才 也 会 投身 大 数据 


OLAP-on-Hadoop 提供 商 AtScale 公司 的 首席 营销 官 Bruno Aziza 表示 ,不 是 数据 专 
业 人 才 的 那些 人 也 会 积极 投身 于 大 数据 。 他 写 道 :“ 随 着 Hadoop 变 得 更 容易 被 非 数 据 
专业 人 才 访 问 ,营销 人 员 会 开始 访问 更 多 的 数据 ,以 便 做 出 更 合理 的 决策 。 可 以 借助 
Hadoop 更 深入 更 全 面 地 了 解数 据 , 这 让 营销 人 员 能 够 洞察 消费 行为 ,从 而 做 出 决策 ,并 
了 解 客户 消费 旅程 背后 的 流程 。” 


高 性 能 计算 渐 成 主流 


存储 巨头 DDN 预测 ,我们 会 看 到 更 多 的 高 性 能 计算 技术 进入 到 主流 ,特别 是 由 于 它 
涉及 存储 。 该 公司 表示 :“2016 年 ,来 自 高 性 能 计算 行业 的 存储 、 数 据 管理 和 应 用 程序 加 
速 等 技术 会 继续 以 更 快 的 速度 被 利用 起 来 ,以 满足 企业 对 性 能 和 规模 越 来 越 高 的 要 求 , 因 
而 会 以 更 快 的 速度 取代 传统 的 IT 基础 设施 。” 


开源 大 数据 遍地 开花 


开源 大 数据 技术 给 你 留 下 了 深刻 印象 ? Pentaho 公司 的 首席 执行 官 Quentin 
Gallivan 表示 ,你 还 没有 看 到 任何 实际 东西 。Gallivan 写 道 :“ 像 Spark、Docker、Kafka 和 
Solr 这 些 很 酷 的 新 工具 会 遍地 开花 ,这 些 新 兴 的 开源 工具 旨 在 能 够 对 PB 级 数据 进行 大 
规模 大 批量 的 分 析 , 它 们 会 从 “青春 期 ?阶段 进入 到 “半年 期 ?阶段 。" 


Spark 淘汰 MapReduce ,拯救 Hadoop 


RDBMS-on-Hadoop 厂商 Splice Machine 公司 的 联合 创始 人 兼 首席 执行 官 Monte 
Zweben 表示 ,Spark 会 淘汰 MapReduce, 但 是 会 拯救 Hadoop。 他 写 道 :“MapReduce 相 
当 深 奥 。 具 有 速度 慢 、 批 处 理 的 特性 ,又 加 上 非常 复杂 ,因而 对 许多 企业 来 说 毫 无 吸引 力 。 
由 于 速度 快 ,Spark 要 自然 得 多 ,对 程序 员 来 说 很 方便 。Spark 会 给 Hadoop 注入 活力 ; 
2016 年 ,基于 Hadoop 的 项 目 十 之 八 九 会 是 与 Spark 有 关 的 项 目 。” 


云 厂商 发 布 自己 的 Spark 平台 即 服务 解决 方案 


Snowflake Computing 公司 的 首席 执行 官 Bob Muglia 表示 ,但 是 这 并 不 意味 着 每 个 


大 数 昌 导 ( 哗 


Spark 项 目 会 涉及 Hadoop。“ 如 今 ,Spark 是 Hadoop 发 行 版 的 一 部 分 ,与 Hadoop 有 着 
广泛 的 联系 。 随 着 Spark 独自 行动 ,建立 一 个 独立 的 、 有 活力 的 生态 系统 ,预计 这 种 情况 
在 2016 年 会 发 生变 化 。 实 际 上 ,可 以 预计 各 大 云 计算 厂商 会 发 布 各 自 的 Spark 平台 即 服 
务 (PaaS) 解 决 方案 。 我 们 会 看 到 Elastic Spark 吗 ? 可 能 性 很 大 。” 


Apache Hadoop 将 被 重 置 ,并非 丢弃 


Teradata 公司 的 企业 系统 总 经 理 Dan Graham 表示 ,企业 组 织 会 对 Apache Hadoop 
进行 重 置 处 理 。“ 随 着 Hadoop 及 相关 开源 技术 跨 过 收集 知识 的 早期 阶段 .炒作 渐渐 消 
退 ,企业 会 对 部 署 的 Hadoop 按 重 置 键 、 而 不 是 丢弃 ,运用 汲取 的 经 验 教训 ,尤其 是 治理 、 
数据 集成 、 安 全 和 可 靠 性 方面 的 经 验 教 训 。” 


主 数据 管理 (MDMD 派 上 用 场 


杂 物 抽 导 问题 是 Hadoop 社区 面临 的 最 大 挑战 之 一 。 但 根本 不 用 害怕 一 一 主 数据 管 
理 (MDM) 派 得 上 用 场 ! Reltio 公司 的 首席 执行 官 兼 创始 人 Manish Sood 写 道 :“MDM 
会 变 得 无 处 不 在 。 长 期 以 来 ,MDM 这 门 技术 只 有 大 公司 才 用 得 起 ,大 公司 拥有 庞大 的 
IT 团队 ,又 有 硬件 、 软 件 和 为 期 多 年 的 实施 项 目 所 需 的 庞大 预算 。 新 一 批 数 据 驱 动 的 应 
用 程序 会 内 置 MDM 作为 基本 要 求 。 由 于 同时 提供 操作 功能 和 分 析 功 能 ,每 个 应 用 程序 
可 人 靠 的 数据 基础 由 MDM 引擎 来 支撑 。” 


Hadoop 将 处 于 十 字 路 口 


2016 年 ,Hadoop 将 处 于 十 字 路 口 , 它 会 往 哪 个 方向 走 ? Altiscale 公司 的 首席 运营 官 
Mike Maciag 给 出 了 他 的 预测 。“2016 年 ,我 们 会 看 到 Hadoop 行业 标准 得 到 巩固 。2015 
年 年 初 ,我 们 看 到 开放 数据 平台 计划 (ODPi) 正 式 启动 ,该 计划 制定 了 标准 ,为 大 数据 生态 
系统 的 关键 项 目 如 何 协同 运行 指明 了 方向 。 由 于 标准 化 给 客户 带 来 的 好 处 变 得 更 加 显 而 
易 见 ,ODPi 的 成 员 数 量 在 这 一 年 翻番 。 我 们 预计 ,2016 年 Hadoop 会 得 到 更 大 的 发 展 和 
认可 ,让 新 的 技术 和 应 用 程序 得 以 满足 由 ODPi 制定 的 Hadoop 生态 系统 标准 。” 


物 联 网 2.0 出 现 


Zebra Technologies 公司 预测 ,我 们 会 看 到 物 联网 2.0 出 现 。“ 物 联网 市 场 会 由 过 去 
的 闭 源 、 专 有 的 第 一 代 解 决 方案 , 变 成 更 成 熟 、 基 于 行业 标准 、 可 灵活 适应 的 解决 方案 。 借 
助 开源 方法 ,企业 组 织 能 够 从 数量 更 多 的 服务 提供 商 及 其 各 自 的 API 当中 做 一 个 选择 。” 
后 稀缺 经 济 日 渐 兴起 


OpenText 公司 首席 执行 官 Mark Barrenechea 预测 , 物 联网 可 能 预示 着 后 稀缺 经 济 
日 渐 兴 起 。 他 写 道 :“ 可 以 将 算法 想象 成 这 种 应 用 程序 ,对 物 联网 及 我 们 生活 中 方方面面 
的 数 十 亿 个 互联 设备 生成 的 彼此 关联 的 海量 信息 进行 大 数据 分 析 。 拥 有 数据 、 分 析 数 据 、 
改进 和 创新 成 为 企业 成 功 的 关键 一 一 这 一 切 得 益 于 互联 数字 化 社会 。” 


第 12 人 章 办 数据 的 未 来 


生产 工作 负载 与 分 析 技 术 充分 结合 


MapR Technologies 公司 的 首席 执行 官 John Schroeder 预测 ,能 够 同时 处 理 分 析 型 
工作 负载 和 事务 型 工作 负载 的 融合 平台 会 迎 来 巨大 飞跃 。“2016 年 ,由 于 各 大 领先 公司 
获得 将 生产 工作 负载 与 分 析 技术 结合 起 来 ,迅速 调整 ,以 适应 客户 偏好 、 竟 争 压力 和 商业 
环境 所 带 来 的 好 处 ,我 们 会 看 到 融合 方法 成 为 主流 方法 。 这 种 融合 加 快 了 企业 组 织 “ 从 数 
据 到 行动 ' 的 周期 ,并 缩短 了 数据 分 析 到 业务 影响 之 间 的 时 间 差 。” 


小 众 解决 方案 吃香 


看 好 2016 年 会 出 现 单一 架构 的 另 一 个 支持 者 是 Datameer 公司 的 首席 执行 官 Stefan 
Groschupf。 他 写 道 :“ 某 个 技术 类 别 是 新 类 别 时 ,会 出 现 众多 公司 ,各 自 的 产品 旨 在 为 
这 个 领域 的 一 小 部 分 提供 解决 方案 。 这 样 一 来 ,客户 只 好 购买 多 个 工具 ,试图 弄 清楚 
如 何 结合 使 用 这 些 工具 。 最 后 ,这 种 方法 根本 行 不 通 ,客户 倾向 于 单一 厂商 提供 的 集 
成 产品 架构 一 一 或 者 覆盖 范围 广泛 的 产品 。2016 年 将 标志 着 大 数据 产品 开始 出 现 这 
种 转型 。” 


外 包 大 行 其 道 


大 数据 服务 提供 商 Absolutdata 公司 的 首席 执行 官 Anil Kaul 预测 ,外 包 在 2016 年 
会 大 行 其 道 。 他 写 道 :“ 我 们 可 以 从 大 数据 获得 众多 有 价值 的 信息 ,可 是 访问 这 些 信息 颇 
具 挑 战 性 ,而 且 通 常 不 在 平常 商业 智能 的 范围 之 内 。 如 今 许 多 公司 在 与 第 三 方 合作 ,制定 
并 执行 大 数据 分 析 策略 。 将 外 部 专家 整合 到 大 数据 团队 当中 ,也 许 是 公司 在 这 个 迅速 变 
化 的 领域 保持 领先 一 步 的 最 佳 途径 。” 

资料 来 源 : 中 云 网 ,2016-1-27 


【课程 实验 总 结 】 

至 此 ,我 们 顺利 完成 了 本 课程 的 教学 任务 以 及 本 书 有 关 “ 大 数据 导论 "的 全 部 实验 。 
为 巩固 通过 实验 所 了 解 和 掌握 的 相关 知识 和 技术 ,请 就 所 做 的 全 部 实验 做 一 个 系统 的 总 
结 。 由 于 篇 幅 有 限 ,如果 书 中 预 留 的 空白 不 够 ,请 另外 附 纸张 粘贴 在 边 上 。 


1. 实验 的 基本 内 容 


(1) 本 学 期 完成 的 “大 数据 导论 "实验 (请 根据 实际 完成 的 实验 情况 填写 )。 
第 1 章 主要 内 容 是 : 


第 2 章 主 要 内 容 是 : 
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第 3 章 主 要 内 容 是 : 


第 4 章 主要 内 容 是 : 


第 5 章 主 要 内 容 是 : 


第 6 章 主 要 内 容 是 : 


第 7 章 主 要 内 容 是 : 


第 8 章 主 要 内 容 是 : 


第 9 章 主要 内 容 是 : 


第 10 章 主要 内 容 是 : 


第 11 章 主要 内 容 是 : 


(2) 请 回顾 并 简 述 : 通过 实验 ,你 初步 了 解 了 哪些 有 关 大 数据 技术 与 应 用 的 重要 概 
念 (至 少 三 项 ) 。 
@ 名 称 : 

简 述 : 


@ 名 称 : 
简 述 : 


萝 训 这 内 向 志 的 恩人 


加 名 称 : 
简 述 : 


@ 名 称 : 


简 述 : 


2. 实验 的 基本 评价 


(1) 在 全 部 实验 中 ,你 印象 最 深 , 或 者 相 比较 而 言 你 认为 最 有 价值 的 实验 是 : 
(9 


你 的 理由 是 : 


© 


你 的 理由 是 : 


(2) 在 所 有 实验 中 ,你 认为 应 该 得 到 加 强 的 实验 是 : 
OD 


你 的 理由 是 : 


你 的 理由 是 : 


大 娄 上 电导 纶 


(3) 对 于 本 课程 和 本 书 的 实验 内 容 , 你 认为 应 该 改进 的 其 他 意见 和 建议 是 : 


3. 课程 学 习 能 力 测 评 


请 根据 你 在 本 课程 中 的 学 习 情 况 ,客观 地 对 自己 在 大 数据 知识 方面 做 一 个 能 力 测 评 。 
请 在 表 12-1 的 "测评 结果 ? 栏 中 合适 的 项 下 打 ”\/ ”。 
表 12-1 课程 学 习 能 力 测评 


关键 能 力 评价 指标 备注 
很 好 | 较 好 | 一 般 | 勉强 | 较 差 


1. 了 解 本 课程 的 知识 体系 、 理 论 基础 及 其 


课程 主要 | 发 展 
内 容 2. 熟悉 大 数据 技术 与 应 用 的 基本 概念 
3. 熟悉 本 课程 的 在 线 学 习 环境 
4 邹 亚 大 数据 的 典型 导读 案例 
行业 应 用 
5. 了解 大 数据 应 用 的 主要 行业 
6. 熟悉 云 计算 的 基础 知识 与 服务 形式 
7. 热 悉 计算 虚拟 化 
基础 设施 


8. 熟悉 存储 虚拟 化 

9. 熟悉 网 络 虚拟 化 

10. 熟悉 大 数据 商业 规则 
11. 熟悉 大 数据 思维 变革 
12. 了 解 大 数据 预测 分 析 
13. 了 解 大 数据 的 技术 架构 
技术 基础 与 | 14. 了 解 Hadoop 分 布 式 架构 
说 澳 隐 为 15. 了 解 大 数据 的 主要 技术 
16. 了 解 机 器 学 习 知 识 


17. 了 解数 据 科学 ,熟悉 数据 科学 家 的 基 
本 要 求 


18. 了 解 大 数据 未 来 发 展 


19. 掌握 通过 网 络 提高 专业 能 力 、 丰 富 专 
解决 问题 与 业 知识 的 学 习 方 法 


创新 20. 能 根据 现 有 的 知识 与 技能 创新 地 提出 
有 价值 的 观点 
说 明 :“ 很 好 ”5 分 ,“ 较 好 ”4 分 ,以 此 类 推 。 全 表 满 分 为 100 分 ,你 的 测评 总 分 为 : 分 。 
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伍 厂 太 天 硬 蝎 的 未 名 


4. 大 数据 导论 实验 总 结 


5. 实验 总 结 评价 (教师 ) 


入 人 
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